点职投

多模态创作大模型研究-智能创作
PhD | 发布于2026-06-13
ByteDance 员工人数:40000 行业分类:Technology promotion,Application service industryDev
深圳
正式
研发 - 算法
2027届前沿技术领域人才校招
职位 ID:A108105A
职位描述
团队介绍:智能创作团队是字节跳动的创作场景业务中台,以AI赋能创造,致力于通过AI技术降低创作门槛,赋能视觉内容生产与创作的智能化升级。团队深度支持抖音、剪映、即梦、豆包、商业化等多个业务线,持续深耕图片与视频生成、智能剪辑、数字人、特效等多个业务场景,通过由AI驱动的智能化工具与算法,为用户提供了更智能、更便捷、更丰富的创作体验,助力普通用户轻松实现高质量内容创作,同时为专业创作者提供强大的技术支持,推动内容生态的繁荣与创新。 课题介绍:随着AGI大模型技术发展,AI多模态图文视频创作范式迎来深刻变革,基于生成式AI与Agent技术的创作解决方案不断涌现。多模态创作大模型依托全模态内容理解、AIGC图像视频生成及Agentic基座模型等前沿技术,构建灵活高效、业界领先的多媒体内容创作方式。通过Continual Training、Post-Training等方式,持续提升模型在内容理解、图像视频生成的能力上限,端到端优化基础模型在创作Agent场景下的整体效果。 课题挑战: 1、深入参与Seed多模态模型及大语言模型后训练(SFT/RL)实践; 2、参与图像视频生成与统一建模,推动模型效果优化的能力,深度体验模型迭代与大规模实训; 3、实践Agent技术及架构、优化Agentic Foundation模型的工具调用能力及Long-Horizon Task能力,深入研究Agentic RL领域。 课题价值:本课题聚焦AGI时代多模态创作变革,依托全模态理解、AIGC生成与Agentic基座模型等前沿技术,构建高效智能的多媒体创作体系。通过持续训练与模型优化,不断突破内容生成与理解能力,推动AI创作从被动生成走向自主智能,兼具技术前沿性与产业落地价值,为下一代智能创作提供核心支撑。
职位要求
1、2027届毕业,获得博士学位,计算机、人工智能等相关专业优先; 2、具备一个或多个领域的研究、实践经验,包括但不限于以下方向; 1)对多模态理解/Omni-modal模型/LLM的Post-Training有深入理解与实践经验,具备基于基础模型进行图像视频Captioning/Prompt Rephraser/文本创作等任务迭代与优化的潜力; 2)对图像生成/视频生成/多模态理解生成统一建模等领域有深入研究,有Post-Training(SFT/RL等)、Long CoT(Reasoning/Agent等)实践经验,具备优秀的问题发现、归因及推动模型效果优化的能力,具备大规模实训经验优先; 3)对Agent技术及架构有深刻理解,对优化Agentic Foundation模型的工具调用能力及Long-Horizon Task能力有良好认知,具备深入的AgenticRL领域研究背景,具有实际Agent项目优化经历加分。

Hi,我们是点职佳!

点职佳出品,专为澳洲在校留学生而生。内含Internship/Co-op/New Grad/Entry Level职位,方向涵盖SDE、DATA、MLE、HWE、QUANT、UI/UX、PM,大厂、中厂、小厂职位一应俱全。

澳洲留学生求职,锁定点职投!