电脑版搜狗怎么语音输入(电脑搜狗怎么语音输入文字)

从XP时代开始,我就梦想用语音转文字。后来手机提前实现了这个功能,但是电脑上的语音输入一直没有进展。为了能在PC上用语音打字,我从2013年折腾到2022年,体

从XP时代开始,我就梦想用语音转文字。后来手机提前实现了这个功能,但是电脑上的语音输入一直没有进展。

为了能在PC上用语音打字,我从2013年折腾到2022年,体验了各种软硬件,终于找到了最适合PC的语音输入方案。

讯飞 + 小麦克风

2013年,讯飞推出PC版输入法。我以为PC语音输入的时代已经到来,就买了十几个麦克风,尝试把语音转换成文字。

但测试结果令人惊讶,语音识别准确率异常低。即使我把小麦放在嘴里,也还是无法记录清楚,80%以上的内容都识别错误。

识别率低让我怀疑麦克风的接收有问题。如果我想通过声音打字,我需要一个更好的麦克风。但是我缺钱,所以我不得不停止尝试。

讯飞 + Blue Yeti

几年后,经济比较宽裕的时候,我订购了网络名人的录音麦克风Blue Yeti,幻想着4位数的麦克风能带来完美的收音识别效果。

电脑版搜狗怎么语音输入文字(搜狗输入法语音识别)插图

但事实是又被打击了。

在蓝色Yeti的收音机测试中,再次发现大量噪音,收货当天直接退货。

十几元的麦克风和一千元的麦克风收音效果一样,语音输入的识别率也极低。这让我猜测语音输入识别率低和硬件无关,而是PC上语音输入方案不成熟,是软件导致的问题。

就这样,我再次暂停了在PC上的语音输入尝试。

外置声卡 + 动圈话筒

然后,用了5年的音箱,出现了问题。我升级了音响,加了外接声卡,视听体验大大提升。玩着玩着,突然想起自己的语音输入梦,决定再试一次。

有了外置声卡,麦克风的选择就多了很多,可以用Cannon line接口连接麦克风。

麦克风分为两类:电容式麦克风和动圈式麦克风。

电容麦收音不错,但是比较娇气,怕潮湿,怕摔。它不能用作桌面麦克风支架。适合用悬臂挂入空,每次使用后需要收好。圆麦的灵敏度和还原度都比电容麦低,所以对储存和使用都没有要求,成本也会更低。

麦克风太麻烦了,所以我选择了简单的动圈麦克风——舒伯乐PRO248S。

麦克风选定后,配麦克风支架和佳能线,连接原装外接声卡,完成语音输出的硬件配置。

输入法之争

硬件做完,语音输入法开始折腾。

虽然讯飞在语音输入领域的品牌最响,但是讯飞PC输入法却不被重视,多年不更新。于是,我尝试了其他输入法的语音功能。在测试中,搜狗的语音识别功能不弱于讯飞,唯一的不足是不能设置语音输入快捷键,所以整体体验还是不错的。因此,语音输入法切换到搜狗。

但是,一旦设置了备份系统,我发现搜狗的词库中有多达27万个单词,其中99%是垃圾单词,甚至那些偶尔输入的单词也被输入法记录下来。更可怕的是,这个词库无法从云端删除。只要你输入一次,搜狗就会永远记住它。

输入法在哪里?它根本就是一个键盘记录器。

国内其他输入法在这一点上差了一半,为了不被键盘录音机错过,我只能改用开源输入法。

语音输入切换为开源快切,使用阿里云和腾讯云的商用语音接口,识别率高于免费的搜狗和讯飞。

快切缺点:输入语音时要一直按大写键,不适合长语音输入;触发键无法更改,大写键与我的常用脚本冲突。所以长时间的语音输入只能借助手机上的飞本进行转录。

最终方案:微软语音输入

当面对快切冗长的语音输入问题时,@李乐推荐微软语音输入——用语音打字来说话,而不是在电脑上打字。

微软自带的语音输入,快捷键Win+H. 3元麦克风,50厘米远,很低的声音读出。

测试后发现微软语音输入真的很好用,甚至有点吓人。考试的时候,我临时有事,去了另一个房间和家人说话。回来后发现刚才的对话被微软语音输入正确识别。

微软语音输入非常灵敏,远距离、低声都能识别。这样我就不用专门为了语音输入而移动麦克风了,还可以继续把麦克风放在不遮挡视线的远处角落。

“该应用中语音打字功能受限”在Notepad++和微信中都有出现,但Visual Studio代码没有出现。不过,其实这个提示并不影响语音输入,所以通常可以忽略这个提示。

虽然微软语音输入的识别率只有85%,还不如阿里云方案的95%,但是系统本身的优势太明显了,微软语音输入的体验非常流畅。

启动快捷键Win+H,语音识别马上开始。如果中途不说话,应用会自动暂停,整理之前的输入,插入合适的标点符号。停止超过一分钟后,语音识别将暂停,等待再次启动。也就是说,微软语音输入可以一键完成长语音输入。

之前麦克风放着不动就坏了,所以没有测试@李乐低价麦克风的语音输入效果。不过微软的软件输入优化的非常好。根据目前的效果,推测廉价的麦克风也可以实现完美的收音。总的来说,微软语音输入是目前最完善兼容的语音输入方案。

总结与展望

3种语音输入方案:

文章输入:微软语音输入 + 外置声卡 + 动圈话筒,兼容性最高,使用方便,但精度一般,用于文章草稿阶段。一句话输入:Quick Cut + 外置声卡 + 动圈话筒,一句话识别精度最高,适合聊天时使用。语音转录:飞书妙记 + 手机,录音转文字,长语音的识别率超高。

相比2018年,2022年的语音输入方案提升了不少。硬件不再是问题,便宜的麦克风也能达到语音输入的标准。语音识别已经取得了显著的进步。得益于AI技术,短句识别率从90%提升到95%,长句识别率从50%提升到70%。标点符号可以正确插入。

目前语音输入算法正在提高最后10%的准确率,期待听写和键盘输入完全一致的那一天。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。

作者:美站资讯,如若转载,请注明出处:https://www.meizw.com/n/310650.html

发表回复

登录后才能评论