主页 > 设备通信 >听障者福音!牛津大学开发会读唇语的AI,实验準确率高达93. >

听障者福音!牛津大学开发会读唇语的AI,实验準确率高达93.

听障者福音!牛津大学开发会读唇语的AI,实验準确率高达93.

事实上,即使是专业的唇语解读者,其準确率也只有 20%-60%。所以很多时候,一知半解的「专家」们基本也是依靠脑补强行解读的。这就是为什幺体育比赛中球员们只好採取各种手势来交流了。

不过,牛津大学最新研发的人工智慧系统,有望大幅提高唇语解读的準确性。

根据牛津大学新发表的论文,这个叫 LipNet 的人工智慧係统,能够将影片中人物的嘴巴活动与其台词进行匹配,準确率高达 93.4%。而在此之前,即使是最先进的逐字对照系统,其準确率也只有 79.6%。

研究人员表示,他们换了一种思维方式,不是通过可视音素系统来训练 AI 识别每一种唇部活动,而是让它能够一次处理整个句子。这就使得 AI 能够自己学习字母与唇部细微变化之间的对应关係。

在训练过程中,研究人员向 AI 展示了近 29000 个标有正确文本的影片,每个影片长度为 3 秒。为了了解人类唇语解读者在面对同样的任务时的表现,该团队还招募了三名实验人员,让他们随机观看了其中的 300 个影片。

结果显示,参与实验的人员平均错误率为 47.7%,而 AI 只有 6.6%。

不过,这不并代表 AI 就能準确读懂唇语了。因为在训练时,研究人员使用的影片都是经过精心策划的,影片画面光线充足,每个人都正对镜头,且吐字清晰、发音标準,台词也是类似于「立即将蓝色放入 m1」这种包含命令、颜色、介词、字母、数字等格式的句子。

如果让 AI 去解读 YouTube 上随机挑选的影片,效果可能不见得比人类好多少。

值得一的是,这个专案得到了来自 Alphabet 旗下的 DeepMind 实验室的资助。

OpenAI 的 Jack Clark 认为,LipNet 还需要进行以下三个方向的改进,即通过大量真实环境中人物的讲话影片,让 AI 能够从多个角度阅读嘴唇,并增加短语的类型。

当然,开发这样一个 AI 可不是为了满足球迷和媒体的八卦之心的,听力受损人群才是这一工具的目标。

如果唇语解读 AI 能够更完善,它将帮助数百万听力障碍者「听懂」其他人的对话。此外,透过听取影片快速生成準确的字幕也是可能的应用领域之一。