音频处理工具，faster-whisper-GUI软件体验

现在关于AI的工具是越来越多，随着AI的出现，大家肯定也听到了很多关于某某模型的信息，各厂家之间也是在对比模型之间的性能，把它换种说法，有点类似在软件和系统上，讨论使用哪种内核的味道了。

训练模型一般要用到大量的算力，还要放在专门的服务器上，而训练好的成果，就像是炼制好的丹药，在精简和用户的设备上也能跑，今天我们要说的，是在音频识别上面一款融合了众多优点的模型启动器——faster-whisper-GUI。

听到Whisper，这个大家可能有点熟悉，这是OpenAI做的一个神经网络模型，可以在本地实时语音转文字，用来翻译和做字幕等，之前给大家介绍过一款叫做Constme-Whisper的软件，可以快速进行离线语音文字识别，还有GPU加速等等。

而faster-whisper-GUI增添了更多的特性，可以快速把音视频文件转成srt/txt/smi/vtt/lrc，支持Demucs、FastWhiper和whisperX、VAD-model这些技术，简单来说，支持的可调整的选项要比之前推荐的工具更多一点。

由于这类工具离线处理的特点，所以体积都比较大，faster-whisper-GUI的本体有1.6个G，安装完之后的占用又是6个多G，而且还不包括后续添加模型的大小，建议大家体验的时候，装在空间富裕的盘里。

如果是分离音频和背景音乐的话，直接把文件丢进来就行，试了一下效果还不错，也可以单独设置输出的内容。

其他的就需要加载一下额外模型了，把模型加载的时候需要注意，有个处理设备的选项，CPU还是CUDA，如果你用的不是英伟达的显卡，选择自动就好了，不然会提示加载失败。

模型也有多重选择，如果上面带有V3标志，记得把这个开关打开。

来试试语音转文字，如果你觉得自己的设备处理等待时间有点长，在软件执行的时候可以挂在后台和切换到其他界面，在它的详情页面能看到输出的具体信息，它的正确率还是比较高的，中英文混合与首字母大小写这些细节都有。

这类机器识别和人一样，识别率还不能做到100%正确，识别完之后，会有一些错误需要手动调整，在faster-whisper-GUI里，它会自己跳转到字幕制作的界面，可以快速浏览调整，在这里分割不同说话人的文本等等。

在设置里面，还有许多细节可以调整，调整音频的默认语言和翻译，以及各种防止幻听的参数。

这个功能在一些视频编辑软件还是需要收费的，或者需要云端处理，识别的准确率也就那样。

DC生肖网