火山引擎发布豆包视频生成模型5月13日，在FORCELINKAI创新巡

火山引擎发布豆包视频生成模型

5月13日，在 FORCE LINK AI 创新巡展·上海站，火山引擎发布豆包·视频生成模型 Seedance 1.0 lite、豆包1.5·视觉深度思考模型，并升级豆包·音乐模型，以更全面的模型矩阵、更丰富的智能体工具，帮助企业打通从业务到智能体的应用链路。

此次全新发布的豆包视频生成模型Seedance 1.0 lite，支持文生视频、图生视频，视频生成时长支持5s、10s，分辨率提供480P、720P。企业用户可在火山方舟平台使用该模型API，个人用户也可在豆包APP、即梦体验。

作为豆包视频生成模型系列的小参数量版本，Seedance 1.0 lite模型实现了两大突破：影视级的视频生成质量、视频生成速度大幅提升，兼顾效果、速度、性价比。

• 更精准的指令遵循：通过强大的语义理解，可精细控制人物外貌气质、衣着风格、表情动作等，并在多主体动作解析、嵌入式文本响应、程度副词和镜头切换响应方面具有优势。

• 更丰富的影视级运镜：支持360度环绕、航拍、变焦、平移、跟随、手持等多种镜头语言，具备细腻高清的基础画质和影视级美感。

• 更合理的运动交互：分析动作时序与空间关系，提升人物、物体间自然流畅的交互动作，运动轨迹、受力反馈更加契合现实规律。

Seedance 1.0 lite模型可广泛应用于电商广告、娱乐特效、影视创作、动态壁纸等场景。例如在电商领域，可帮助商家快速生成高质量的营销视频素材，精准匹配产品展示、活动推广等场景，降低制作成本与周期。

新发布的豆包1.5·视觉深度思考模型（Doubao-1.5-thinking-vision-pro），激活参数仅20B，但具备强大的多模态理解和推理能力，在60个公开评测基准中，有38个取得 SOTA 表现，在视频理解、视觉推理、GUI Agent能力等方面均处于第一梯队。目前，该模型已在火山方舟上线。

同时，新增视频深度思考能力。模型学习了数万亿多模态标记数据，掌握广泛视觉知识，结合强化学习，使视觉推理能力大幅提升。例如，在复杂的图形推理题中，模型提出假设，进行推理检验，当发现和假设不一样时，还能进行不断反思，提出新的猜测，直到得出正确答案。

此外，该模型新增GUI Agent能力。基于强大的GUI定位性能，可在PC端、手机端等不同环境中完成复杂交互任务。例如，可对新开发的APP功能进行自动化检测，目前该功能已经应用于字节跳动多款APP产品的开发测试中。

0 阅读：10