【[114星]MoshiVis：让语音模型“看懂”图像，开启视觉对话新时代。亮点

爱生活爱珂珂 2025-03-25 20:52:27

【[114星]MoshiVis：让语音模型“看懂”图像，开启视觉对话新时代。亮点：1. 基于7B参数的Moshi模型，新增约206M适配器参数，轻松讨论图像；2. 支持PyTorch、Rust、MLX三种后端，灵活部署；3. 提供实时视觉对话能力，低延迟高效率】

'MoshiVis: Teaching Speech Models to Converse about Images'

GitHub: github.com/kyutai-labs/moshivis

视觉语音模型多模态对话实时交互 AI创造营

0 阅读：2

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

【[44星] Awesome MLLM Reasoning Benchmarks

2

【[640 星] Frimousse: 一个轻量级、未样式化且可组合的 Reac

3

【[367星]Fetcher MCP：用 Playwright 无头浏览器获取网

4

【[261星]FastOpenAPI：一个强大的库，用于生成和集成OpenAPI

5

【[899星]Landrun：为Linux进程提供轻量级、内核级安全沙盒。亮点：

6

【[49星]URAE：轻松实现超高分辨率图像生成的PyTorch实现。亮点：1.

7

【[818星]Retroboy：用Rust语言打造的Game Boy模拟器，让你

8

【《人形机器人：从零到万亿的机会》：提供了关于人形机器人技术的深入分析，包括其在

9

早！[太阳] 早安

10

【[1.2k星]Anubis：通过 HTTP proof-of-work 功能来

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

说刘强东作秀的，你们让王兴也秀一个噻，或者你们自己做一天体验一下。一个千亿身价的

2

京东称有外卖骑手遭遇2选1外卖“二选一”，困住的不只是骑手近日，京东发布“致全体

3

格力电器董明珠董事长的“海归论”，遭到一些人的批评和质疑，个人觉得大可不必。

4

预算2000元适合买什么手机？这次机型供参考，性价比和当年小米1999不相上下。

5

荣耀Power今晚发布，真机感觉还不错，相对轻薄，看不出来居然有8000mAh电

6

最新的手机续航性能排行榜，你用的手机上榜了没有这次的荣耀Power可以说一鸣

7

为什么最近不少公司取消大小周，背后的原因是什么？小红书将取消大小周

8

据说华为nova14系列快了，这配置如何？网传nova14系列将在五

9

国内三大旗舰手机已发布谁才是你心中最强的Ultra手机

10

我宣布，再也不买荣耀手机自用的，22年买的magic4pro，当时是荣耀当年

科技最新文章

1

麒麟9010芯片翻车了？实测结果让花粉集体破防！惊人发现：号称7nm工艺的麒麟

2

苹果第二财季在华营收不及预期两个因素。国产手机强！另外一个因素就是因为iPhon

3

苹果第二财季在华营收不及预期中国区业绩方面，苹果第2财季大中华区营收160.02

4

万万没想到美团刚刚突然宣布了！4月30日，美团突然宣布：自5月1日0点起全面免除

5

为什么苹果手机各方面都是顶配，却唯独信号不好？内行人的一席话道出其中真相：说

6

听说小杨哥搞了个小杨甄选app，本想试试新软件看能不能薅点羊毛，结果一打开大跌

7

不少人说买荣耀Magic7的要哭死了，刚发布的荣耀GTPro芯片更强、续航更长

8

我宣布，再也不买荣耀手机自用的，22年买的magic4pro，当时是荣耀当年

9

刚刚！#一加13T#首销10分钟破两亿！这手机我也用了几天，最大的感受是真爽，单

10

#家长可一键启动APP未成年模式#【#移动互联网未成年人模式发布#】4月29日上