大家好,我是徐小夕。架构师,曾任职多家上市公司,多年架构经验,打造过上亿用户规模的产品,目前全职创业,主要聚集于“Dooring AI零代码搭建平台”和“flowmixAI多模态办公软件”
今天要给大家安利一个最近发现的宝藏开源项目 ——FlyCut Caption。

先上关键信息:
项目地址https://github.com/x007xyz/flycut-caption项目定位AI 驱动的智能视频字幕裁剪工具核心功能语音识别生成字幕、可视化编辑、视频裁剪一体化FlyCut Caption 最吸引我的地方是它将AI 语音识别与视频编辑无缝结合,彻底解决了传统字幕制作流程繁琐的痛点。
功能亮点剖析
作为一个挑剔的技术博主,我见过不少字幕工具,但 FlyCut Caption 有几个功能确实让我眼前一亮:
高精度语音识别基于 Whisper 模型,支持多语言,生成带字级时间戳的字幕可视化编辑直观的字幕片段选择和删除界面,像剪辑视频一样剪辑字幕实时预览视频播放器与字幕同步,支持区间播放,编辑效果立即可见多格式导出不仅支持 SRT、JSON 等字幕格式,还能直接导出处理后的视频样式定制字体、颜色、位置等都能自定义,满足个性化需求本地化处理无需上传视频,保护隐私的同时提升处理速度最让我惊喜的是它的离线能力—— 所有处理都在本地完成,对于处理敏感内容的用户来说太重要了。
技术架构我基于 github 项目的技术分析,自己总结了一下这款开源项目的技术架构,如下图:

前端层的技术架构如下:

依赖层技术架构:

业务层的架构设计:

部署层的设计如下:

这个架构设计我个人觉得非常优雅,既保留了 Web 端的前端优势,又通过 Tauri + Rust 实现了桌面端的高性能,堪称 "鱼与熊掌兼得" 的典范。
作为前端开发者,我和大家分享一下 FlyCut Caption 的技术选型:
前端框架React 19 + TypeScript 5.8,兼顾开发效率和类型安全构建工具Vite 7.1,热更新速度快到飞起样式方案Tailwind CSS 4.1 + Shadcn/ui,美观且开发效率高状态管理Zustand + React Context,轻量且灵活AI 模型Hugging Face Transformers.js,在浏览器中运行 AI 模型视频处理WebAV 处理 Web 端视频,FFmpeg 处理桌面端视频后端技术Rust + Tauri,为桌面版提供高性能支持这种技术栈组合既能保证开发效率,又能确保产品性能,值得前端团队学习借鉴。
应用场景FlyCut Caption 的应用场景基于我自身经验, 总结如下:
自媒体创作者快速给视频添加字幕,剪辑无用片段教育工作者给教学视频添加精准字幕,方便学生学习会议记录将会议录像转为带字幕的视频,重点内容可快速定位内容翻译配合翻译功能,快速制作多语言版本视频播客制作将音频转为带字幕的视频内容,扩大传播范围我已经用它处理了几期视频教程,效率至少提升了 5 倍左右。
优缺点分析
优点:本地化处理,速度快且保护隐私界面美观,操作直观,学习成本低技术栈先进,代码质量高,可扩展性强Web 和桌面版本兼顾,适应不同场景完全开源免费,社区活跃不足:部分高级功能(如翻译)仍在开发中桌面版刚起步,可能存在一些兼容性问题对低配置设备来说,AI 识别可能略显吃力文档虽然全面,但针对新手的教程还可以更丰富上面是我个人总结的优缺点,大家可以参考一下。
本地部署教程本地部署非常简单,只需要3步,接下来和大家分享一下。
1. 克隆项目
git clone https://github.com/x007xyz/flycut-caption.git cd flycut-caption2. 安装依赖
# 确保你有 Node.js 18+ 和 pnpm 8+ pnpm install3. 启动开发服务器
pnpm dev启动成功后,浏览器会自动打开应用界面,此时我们就可以开始体验了。
总结用过不少字幕工具,FlyCut Caption 给我的感觉是 "专注且专业"。它没有追求大而全,而是把字幕生成、编辑、视频裁剪这个核心流程做到了极致。
特别是从 Web 应用向桌面应用的迁移思路,既保留了前端开发的效率,又通过 Rust 获得了接近原生应用的性能,这种技术选型思路非常值得学习。
如果大家经常需要处理视频字幕,或者想研究 AI 本地化部署的实践,这个项目绝对值得研究。
github地址:https://github.com/x007xyz/flycut-caption
好啦,今天就分享到这,如果大家对这款开源项目感兴趣,也欢迎随时和我交流。