【[114星]MoshiVis:让语音模型“看懂”图像,开启视觉对话新时代。亮点

爱生活爱珂珂 2025-03-25 20:52:27

【[114星]MoshiVis:让语音模型“看懂”图像,开启视觉对话新时代。亮点:1. 基于7B参数的Moshi模型,新增约206M适配器参数,轻松讨论图像;2. 支持PyTorch、Rust、MLX三种后端,灵活部署;3. 提供实时视觉对话能力,低延迟高效率】

'MoshiVis: Teaching Speech Models to Converse about Images'

GitHub: github.com/kyutai-labs/moshivis

视觉语音模型 多模态对话 实时交互 AI创造营

0 阅读:2
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注