如何理解唇语对人类来说是一个难题。数据显示,大多数人平均只能读对唇语的十分之一。唇读很难,不仅因为你要观察对方嘴唇、舌头、牙齿的轻微运动,而且大部分唇语信号都很模糊,没有语境很难区分。
现在,研究人员说,人工智能技术,如深度学习,可能会解决这个问题。人工智能专注于大数据操作,有助于提高机器语音识别,甚至达到人类水平。那么,机器学习技术也可以用来理解人类的嘴唇吗?
新调查显示 AI 很容易战胜人类,但还有很多工作要做。
牛津大学人工智能实验室、谷歌 据国外媒体报道DeepMind 团队 和加拿大高等研究所(CIFAR)最近联合发表了一篇结合深度学习技术的唇读程序 的论文LipNet。在 GRID 语料库,LipNet 实现了 93.4% 的准确性超过了经验丰富的人唇读者和以前的 79.6% 的最佳精度。研究人员也会 LipNet 的表现与会读唇的人的表现进行了比较。平均而言,它们可以达到 52.3% 的准确性,LipNet 在同一句子中的表现就是这个成就 1.78 倍。此外,将可变长度的视频序列转换为文本的过程几乎是实时的。
然而,当你沉迷于科幻电影《2001: 太空漫游》时,幻想就像 Hall 在能读懂人类唇语的飞船主控计算机出现之前,雷锋网(微信官方账号:雷锋网)一定要给你敲响警钟——牛津大学的这个实验可能有局限性。这个实验首先是基于 GRID 语料库完成,包括 34 志愿者录制的短视频,所有视频长 3 秒,使用 DLib 面部检测器和 68 个 landmark 的 iBug 处理面部形状预测器。每句话都以命令、颜色、介词、字母、数字、副词等方式出现。set blue by A four please”或者 " place red at C zero again " 这样的句型。由于这种模式下的单词和句子有限,只有四种不同的命令和颜色。这导致人工智能领域的一些专家认为,牛津大学的研究结果被夸大了,特别是当他们看到其中一名研究人员在一次采访中耸人听闻地说,这意味着人们将没有秘密。
研究人员 Yannis Assael 和 Brendan Shillingford 接受国外科技媒体 The Verge 在采访中说,他们正在努力突破有限的词汇和语法 。Assael 说:虽然目前的数据集很小,但它是一个很好的迹象,我们将在未来使用更大的数据集来执行任务。
除此之外,Yannis Assael 和 Brendan Shillingford 都强调这个结果不会用来窥探别人的隐私。很简单,因为唇读需要看到对方的舌头,所以你必须在光线好的地方完成这种行为。技术上很难Assael 说任何唇读软件都很难监控别人,所以你可以放心。帧率也是一个重要因素。除非你用一台高科技的相机指向目标对象,否则你必须用麦克风指向他。
相反,两位研究人员认为,在深度学习的帮助下,唇读可以帮助有听力障碍的人,尤其是在嘈杂的环境中。例如,在聚会上,LipNet 可以记录实时通话,并将信息清晰准确地发送到人们的耳朵里。只要你有语音识别和摄像头,这项服务就可以在任何地方实现Assael 说。他还提到了苹果的 Siri 或者谷歌语音助理也可能使用这种技术。所以在未来,如果你不想亲自和电脑交谈,你可以知道你在说什么。
声明:本文内容采编自互联网,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请点击举报,一经查实,本站将立刻删除。