科技界花了数年时间来创建可与人类相当的语音识别软件。近日,IBM宣布,公司已经开发出单词错误率为5.5%的系统,较去年的6.9%单词错误率又有了进一步提高。
微软曾在去年10月声称所研发的语音识别系统单词错误率达到了5.9%,已经十分接近人类的听力水平。但IBM认为这还远远不够。IBM首席研究科学家George Saon,本周在一篇博客文章中写道:“即便已经取得了5.5%单词错误率的突破,但公司认为,语音识别系统要与人类水平旗鼓相当,需要达到的水平应该是5.1%,目前还没有哪家公司能做到。”
为取得5.5%这一数字的突破,IBM将一套名为长短期记忆(Long Short-Term Memory)的人工神经网络与拥有三个强大声学模型的WaveNet语言模型相结合,并启用了20多年来一直被用于检验语音识别系统的“SWITCHBOARD”语料库。
在IBM一份声明中,哥伦比亚大学计算机科学系的Julia Hirschberg教授称,语音识别系统要与人类打成平手仍需努力,因为人类的语言是极其复杂的,而每个人对语言的理解能力也有所差异,这进一步增加了定义“与人类相当”水平标准的难度。