从XP时代开始,我就梦想用语音转文字。后来手机提前实现了这个功能,但是电脑上的语音输入一直没有进展。为了能在PC上用语音打字,我从2013年折腾到2022年,体
从XP时代开始,我就梦想用语音转文字。后来手机提前实现了这个功能,但是电脑上的语音输入一直没有进展。
为了能在PC上用语音打字,我从2013年折腾到2022年,体验了各种软硬件,终于找到了最适合PC的语音输入方案。
讯飞 + 小麦克风
2013年,讯飞推出PC版输入法。我以为PC语音输入的时代已经到来,就买了十几个麦克风,尝试把语音转换成文字。
但测试结果令人惊讶,语音识别准确率异常低。即使我把小麦放在嘴里,也还是无法记录清楚,80%以上的内容都识别错误。
识别率低让我怀疑麦克风的接收有问题。如果我想通过声音打字,我需要一个更好的麦克风。但是我缺钱,所以我不得不停止尝试。
讯飞 + Blue Yeti
几年后,经济比较宽裕的时候,我订购了网络名人的录音麦克风Blue Yeti,幻想着4位数的麦克风能带来完美的收音识别效果。
但事实是又被打击了。
在蓝色Yeti的收音机测试中,再次发现大量噪音,收货当天直接退货。
十几元的麦克风和一千元的麦克风收音效果一样,语音输入的识别率也极低。这让我猜测语音输入识别率低和硬件无关,而是PC上语音输入方案不成熟,是软件导致的问题。
就这样,我再次暂停了在PC上的语音输入尝试。
外置声卡 + 动圈话筒
然后,用了5年的音箱,出现了问题。我升级了音响,加了外接声卡,视听体验大大提升。玩着玩着,突然想起自己的语音输入梦,决定再试一次。
有了外置声卡,麦克风的选择就多了很多,可以用Cannon line接口连接麦克风。
麦克风分为两类:电容式麦克风和动圈式麦克风。
电容麦收音不错,但是比较娇气,怕潮湿,怕摔。它不能用作桌面麦克风支架。适合用悬臂挂入空,每次使用后需要收好。圆麦的灵敏度和还原度都比电容麦低,所以对储存和使用都没有要求,成本也会更低。
麦克风太麻烦了,所以我选择了简单的动圈麦克风——舒伯乐PRO248S。
麦克风选定后,配麦克风支架和佳能线,连接原装外接声卡,完成语音输出的硬件配置。
输入法之争
硬件做完,语音输入法开始折腾。
虽然讯飞在语音输入领域的品牌最响,但是讯飞PC输入法却不被重视,多年不更新。于是,我尝试了其他输入法的语音功能。在测试中,搜狗的语音识别功能不弱于讯飞,唯一的不足是不能设置语音输入快捷键,所以整体体验还是不错的。因此,语音输入法切换到搜狗。
但是,一旦设置了备份系统,我发现搜狗的词库中有多达27万个单词,其中99%是垃圾单词,甚至那些偶尔输入的单词也被输入法记录下来。更可怕的是,这个词库无法从云端删除。只要你输入一次,搜狗就会永远记住它。
输入法在哪里?它根本就是一个键盘记录器。
国内其他输入法在这一点上差了一半,为了不被键盘录音机错过,我只能改用开源输入法。
语音输入切换为开源快切,使用阿里云和腾讯云的商用语音接口,识别率高于免费的搜狗和讯飞。
快切缺点:输入语音时要一直按大写键,不适合长语音输入;触发键无法更改,大写键与我的常用脚本冲突。所以长时间的语音输入只能借助手机上的飞本进行转录。
最终方案:微软语音输入
当面对快切冗长的语音输入问题时,@李乐推荐微软语音输入——用语音打字来说话,而不是在电脑上打字。
微软自带的语音输入,快捷键Win+H. 3元麦克风,50厘米远,很低的声音读出。
测试后发现微软语音输入真的很好用,甚至有点吓人。考试的时候,我临时有事,去了另一个房间和家人说话。回来后发现刚才的对话被微软语音输入正确识别。
微软语音输入非常灵敏,远距离、低声都能识别。这样我就不用专门为了语音输入而移动麦克风了,还可以继续把麦克风放在不遮挡视线的远处角落。
“该应用中语音打字功能受限”在Notepad++和微信中都有出现,但Visual Studio代码没有出现。不过,其实这个提示并不影响语音输入,所以通常可以忽略这个提示。
虽然微软语音输入的识别率只有85%,还不如阿里云方案的95%,但是系统本身的优势太明显了,微软语音输入的体验非常流畅。
启动快捷键Win+H,语音识别马上开始。如果中途不说话,应用会自动暂停,整理之前的输入,插入合适的标点符号。停止超过一分钟后,语音识别将暂停,等待再次启动。也就是说,微软语音输入可以一键完成长语音输入。
之前麦克风放着不动就坏了,所以没有测试@李乐低价麦克风的语音输入效果。不过微软的软件输入优化的非常好。根据目前的效果,推测廉价的麦克风也可以实现完美的收音。总的来说,微软语音输入是目前最完善兼容的语音输入方案。
总结与展望
3种语音输入方案:
文章输入:微软语音输入 + 外置声卡 + 动圈话筒,兼容性最高,使用方便,但精度一般,用于文章草稿阶段。一句话输入:Quick Cut + 外置声卡 + 动圈话筒,一句话识别精度最高,适合聊天时使用。语音转录:飞书妙记 + 手机,录音转文字,长语音的识别率超高。
相比2018年,2022年的语音输入方案提升了不少。硬件不再是问题,便宜的麦克风也能达到语音输入的标准。语音识别已经取得了显著的进步。得益于AI技术,短句识别率从90%提升到95%,长句识别率从50%提升到70%。标点符号可以正确插入。
目前语音输入算法正在提高最后10%的准确率,期待听写和键盘输入完全一致的那一天。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。
作者:美站资讯,如若转载,请注明出处:https://www.meizw.com/n/310650.html