火山引擎发布豆包视频生成模型
5月13日,在 FORCE LINK AI 创新巡展·上海站,火山引擎发布豆包·视频生成模型 Seedance 1.0 lite、豆包1.5·视觉深度思考模型,并升级豆包·音乐模型,以更全面的模型矩阵、更丰富的智能体工具,帮助企业打通从业务到智能体的应用链路。
此次全新发布的豆包视频生成模型Seedance 1.0 lite,支持文生视频、图生视频,视频生成时长支持5s、10s,分辨率提供480P、720P。企业用户可在火山方舟平台使用该模型API,个人用户也可在豆包APP、即梦体验。
作为豆包视频生成模型系列的小参数量版本,Seedance 1.0 lite模型实现了两大突破:影视级的视频生成质量、视频生成速度大幅提升,兼顾效果、速度、性价比。
• 更精准的指令遵循:通过强大的语义理解,可精细控制人物外貌气质、衣着风格、表情动作等,并在多主体动作解析、嵌入式文本响应、程度副词和镜头切换响应方面具有优势。
• 更丰富的影视级运镜:支持360度环绕、航拍、变焦、平移、跟随、手持等多种镜头语言,具备细腻高清的基础画质和影视级美感。
• 更合理的运动交互:分析动作时序与空间关系,提升人物、物体间自然流畅的交互动作,运动轨迹、受力反馈更加契合现实规律。
Seedance 1.0 lite模型可广泛应用于电商广告、娱乐特效、影视创作、动态壁纸等场景。例如在电商领域,可帮助商家快速生成高质量的营销视频素材,精准匹配产品展示、活动推广等场景,降低制作成本与周期。
新发布的豆包1.5·视觉深度思考模型(Doubao-1.5-thinking-vision-pro),激活参数仅20B,但具备强大的多模态理解和推理能力,在60个公开评测基准中,有38个取得 SOTA 表现,在视频理解、视觉推理、GUI Agent能力等方面均处于第一梯队。目前,该模型已在火山方舟上线。
同时,新增视频深度思考能力。模型学习了数万亿多模态标记数据,掌握广泛视觉知识,结合强化学习,使视觉推理能力大幅提升。例如,在复杂的图形推理题中,模型提出假设,进行推理检验,当发现和假设不一样时,还能进行不断反思,提出新的猜测,直到得出正确答案。
此外,该模型新增GUI Agent能力。基于强大的GUI定位性能,可在PC端、手机端等不同环境中完成复杂交互任务。例如,可对新开发的APP功能进行自动化检测,目前该功能已经应用于字节跳动多款APP产品的开发测试中。