汗!德国研究人员开发的人工智能语音识别已超越人类

跟随对话并精确地抄录对话是人工智能(AI)研究中最大的挑战之一。目前,德国卡尔斯鲁厄理工学院(KIT)的研究人员首次成功开发出一种计算机系统,在识别这种自发的口语时,能以最小的延迟优于人类。这是在arXiv.org上报道的。

KIT信息学教授Alex Waibel说:“当人们互相交谈时,会出现停顿、结巴、犹豫,如‘呃’或‘嗯’,笑声和咳嗽声。通常情况下,单词的发音不清晰。”这使得人们甚至很难对对话进行准确的记录。“而到目前为止,这对人工智能来说更加困难。”来自KIT的科学家和KITES的工作人员现在已经编程了一个计算机系统,它比人类更好地执行这一任务,并且比其它系统更快。

Waibel已经开发了一个自动现场翻译器,可以直接将大学讲座从德语或英语翻译成外国学生使用的语言。自2012年以来,这个“讲座翻译器”已经在KIT的演讲厅中使用。Waibel解释说:“对自发语音的识别是这个系统最重要的组成部分,因为识别中的错误和延迟会使翻译无法理解。在对话语音中,人为错误率约为5.5%。我们的系统现在达到了5.0%。”

然而,除了精度之外,系统产生输出的速度也同样重要,这样学生就可以现场跟读讲座。研究人员现在已经成功地将这一延迟降低到一秒。Waibel说,这是迄今为止这种质量的语音识别系统达到的最小延迟报告。

错误率和延迟是用标准化的、国际公认的、科学的基准(Switchboard-benchmark)测试来衡量的。这个基准(由美国NIST定义)被国际人工智能研究人员广泛使用,他们竞争的目标是打造一台在可比条件下接近人类识别自发语音的机器,甚至超越人类。

Waibel认为,快速、高精度的语音识别是进一步进行下游自动化处理的重要步骤。它可以让对话、翻译和其它人工智能模块提供更好的语音互动。

发表评论