现在关于AI的工具是越来越多,随着AI的出现,大家肯定也听到了很多关于某某模型的信息,各厂家之间也是在对比模型之间的性能,把它换种说法,有点类似在软件和系统上,讨论使用哪种内核的味道了。
训练模型一般要用到大量的算力,还要放在专门的服务器上,而训练好的成果,就像是炼制好的丹药,在精简和用户的设备上也能跑,今天我们要说的,是在音频识别上面一款融合了众多优点的模型启动器——faster-whisper-GUI。
听到Whisper,这个大家可能有点熟悉,这是OpenAI做的一个神经网络模型,可以在本地实时语音转文字,用来翻译和做字幕等,之前给大家介绍过一款叫做Constme-Whisper的软件,可以快速进行离线语音文字识别,还有GPU加速等等。
而faster-whisper-GUI增添了更多的特性,可以快速把音视频文件转成srt/txt/smi/vtt/lrc,支持Demucs、FastWhiper和whisperX、VAD-model这些技术,简单来说,支持的可调整的选项要比之前推荐的工具更多一点。
由于这类工具离线处理的特点,所以体积都比较大,faster-whisper-GUI的本体有1.6个G,安装完之后的占用又是6个多G,而且还不包括后续添加模型的大小,建议大家体验的时候,装在空间富裕的盘里。
如果是分离音频和背景音乐的话,直接把文件丢进来就行,试了一下效果还不错,也可以单独设置输出的内容。
其他的就需要加载一下额外模型了,把模型加载的时候需要注意,有个处理设备的选项,CPU还是CUDA,如果你用的不是英伟达的显卡,选择自动就好了,不然会提示加载失败。
模型也有多重选择,如果上面带有V3标志,记得把这个开关打开。
来试试语音转文字,如果你觉得自己的设备处理等待时间有点长,在软件执行的时候可以挂在后台和切换到其他界面,在它的详情页面能看到输出的具体信息,它的正确率还是比较高的,中英文混合与首字母大小写这些细节都有。
这类机器识别和人一样,识别率还不能做到100%正确,识别完之后,会有一些错误需要手动调整,在faster-whisper-GUI里,它会自己跳转到字幕制作的界面,可以快速浏览调整,在这里分割不同说话人的文本等等。
在设置里面,还有许多细节可以调整,调整音频的默认语言和翻译,以及各种防止幻听的参数。
这个功能在一些视频编辑软件还是需要收费的,或者需要云端处理,识别的准确率也就那样。
有了这类软件,就可以自己手动操作了,有音频转文字编辑需求的朋友可以说是常备了~