ByteDance
员工人数:40000 行业分类:Technology promotion,Application service industryDev
深圳正式研发 - 算法2027届前沿技术领域人才校招职位 ID:A108105A
职位描述
团队介绍:智能创作团队是字节跳动的创作场景业务中台,以AI赋能创造,致力于通过AI技术降低创作门槛,赋能视觉内容生产与创作的智能化升级。团队深度支持抖音、剪映、即梦、豆包、商业化等多个业务线,持续深耕图片与视频生成、智能剪辑、数字人、特效等多个业务场景,通过由AI驱动的智能化工具与算法,为用户提供了更智能、更便捷、更丰富的创作体验,助力普通用户轻松实现高质量内容创作,同时为专业创作者提供强大的技术支持,推动内容生态的繁荣与创新。
课题介绍:随着AGI大模型技术发展,AI多模态图文视频创作范式迎来深刻变革,基于生成式AI与Agent技术的创作解决方案不断涌现。多模态创作大模型依托全模态内容理解、AIGC图像视频生成及Agentic基座模型等前沿技术,构建灵活高效、业界领先的多媒体内容创作方式。通过Continual Training、Post-Training等方式,持续提升模型在内容理解、图像视频生成的能力上限,端到端优化基础模型在创作Agent场景下的整体效果。
课题挑战:
1、深入参与Seed多模态模型及大语言模型后训练(SFT/RL)实践;
2、参与图像视频生成与统一建模,推动模型效果优化的能力,深度体验模型迭代与大规模实训;
3、实践Agent技术及架构、优化Agentic Foundation模型的工具调用能力及Long-Horizon Task能力,深入研究Agentic RL领域。
课题价值:本课题聚焦AGI时代多模态创作变革,依托全模态理解、AIGC生成与Agentic基座模型等前沿技术,构建高效智能的多媒体创作体系。通过持续训练与模型优化,不断突破内容生成与理解能力,推动AI创作从被动生成走向自主智能,兼具技术前沿性与产业落地价值,为下一代智能创作提供核心支撑。
职位要求
1、2027届毕业,获得博士学位,计算机、人工智能等相关专业优先;
2、具备一个或多个领域的研究、实践经验,包括但不限于以下方向;
1)对多模态理解/Omni-modal模型/LLM的Post-Training有深入理解与实践经验,具备基于基础模型进行图像视频Captioning/Prompt Rephraser/文本创作等任务迭代与优化的潜力;
2)对图像生成/视频生成/多模态理解生成统一建模等领域有深入研究,有Post-Training(SFT/RL等)、Long CoT(Reasoning/Agent等)实践经验,具备优秀的问题发现、归因及推动模型效果优化的能力,具备大规模实训经验优先;
3)对Agent技术及架构有深刻理解,对优化Agentic Foundation模型的工具调用能力及Long-Horizon Task能力有良好认知,具备深入的AgenticRL领域研究背景,具有实际Agent项目优化经历加分。


