首页科技快讯嗑《山河令》的cp，还得会读唇语？

嗑《山河令》的cp，还得会读唇语？

来源：晰数塔互联网快讯时间：2021年03月11日 09:30

本文来自微信公众号：果壳（ID：Guokr42），作者：小毛巾，麦麦，题图来自：《山河令》

要说最近火爆的国产剧，《山河令》必须拥有姓名！

这部武侠剧改编自耽美小说，剧中两位男性主角的“兄弟情”醇厚得让人上头。不过，剧中有不少片段，都出现了配音和角色口型明显不吻合的情况。嗑cp上头的嗑学家们，纷纷化身唇语大师，对照原著台词，破译了演员唇语里的“虎狼之词”。

嗑学家读到的却是……

再猜猜这个唇语说的啥？

我们拿这个截图问了编辑部同事，得到的回答竟然有：不吃翻译？碧池美人？别值班了？（AI：这位同学在想什么？）

嗑学家公布结果：

上头了上头了！

读唇语，已然成为cp粉的必备“嗑学”技能。然而，这项技能一点都不简单。人，当然不能准确地给出完美答卷，就连一向所向披靡的AI也折戟于此。

读唇语，读的不止是唇

嗑cp仅仅是唇读应用的新型场景。实际上，对于有听觉障碍的朋友来说，唇读是一种重要的交流方式。哪怕有助听器的帮助，视觉辅助也可以让他们“听”得更清楚。听力正常的人也常常会用到唇读——想一想，在嘈杂的餐馆里，为了听清楚别人说的话，你是不是也会不自觉地盯着对方看。

唇读要读的并不止是口唇，说话人的肌肉活动和面部表情也会提供许多信息；听者将这些视觉信息与大脑中储存的词语相联系和比较，从而理解说话人的语义。

某综艺节目里，杨幂读符龙飞的唇语：“骑上我心爱的小摩托”

说是“理解”，但在实际操作中却可能是“误解”，许多因素都会影响唇读的正确率。例如，以聋校学生为对象的几项研究发现，读出韵母比读出声母更容易；而对于/a/、/i/、/e/这样的不圆唇音，判断正确率则比/o/、/u/、/ü/这样的圆唇音更高。

仅仅判断单个声母或韵母已经很难了，研究显示准确率通常仅为50%～70%。实际场景中的应用更复杂：汉语里的4个声调，无法通过口唇形状判断；上下文的联系，需要读唇语的人靠语言理解能力和判断推理能力自行推测。

唇读是聋校教学的内容之一，需要的不仅是视觉感受能力和语言理解能力，还有培养判断推理能力；而且需要注意力高度集中才能完成。既然人工学习困难重重，那人工智能能不能助一臂之力呢？

AI读唇语，准确率高达93.4%？

在学唇语上，AI确实已经比普通人牛掰不少了。2016年11月，牛津大学训练了一个AI，叫Lipnet。Lipnet在唇读测试中达到了93.4%的准确度，远远把人类52.3%的成绩甩在身后；而且，它还能几乎实时地将无声视频处理成文本。

AI怎么识别唇语呢？它先从图像中识别出人脸，提取人说话时口型变化的特征，通过嘴型特征来识别音素。音素是最小的语音单位，例如汉语中的韵母/a/就是一个音素，AI可以依据不同的发音动作来分析音素。识别口型对应的发音后，AI可以进一步识别单词、句子，再将这些词句放在大数据里搜索，来判断哪个更可能是人会讲出的话。例如，“我是天才”还是“我是甜菜”，大数据会证明，前者的可能性更大。

Lipnet的表现看起来很不错，但其实，它更像是一个只会一项指定动作的AI。训练Lipnet的数据集有严重的局限性，这个数据集里虽然有成千上万个短视频，但视频高度相似——都是统一由志愿者念的，每个视频只有3秒钟，连打光都差不多。更“作弊”的是，每个句子都遵循以下的模式：

命令+颜色+介词+字母+数字+副词

Place red at C zero again

Set blue by A four please

这样的傻瓜句型让AI能快速掌握规律。所以，即便测试的结果很不错，也有很多人不买帐。

仍在进化的唇读AI

在Lipnet面世的不久后，牛津大学（又是它！）和谷歌旗下研究人工智能的Deepmind合作开发，推出了另一个AI。这个AI识别唇语的准确率为46.8%，而在同一项测试里，专业唇读者的准确率只有12.4%。

捕捉口型的变化来识别语句｜参考文献 [1]

准确率降低了？并不是，相比于温室花朵的Lipnet，这个AI算是野战选手。训练它的数据集来自BBC上千个小时的政治视频，这里有不同的人、不同的口音和不同的打光，识别难度上了好几个台阶。研究者认为，它是在“野生”环境里摸爬滚打出来的，表现已经非常出色。

谷歌Deepmind联合开发的AI实时识别新闻中的唇语｜参考文献 [1]

国内也有类似的读唇语软件。2017年，搜狗推出了可以识别中文唇语的AI。搜狗AI开放平台表示，他们的唇语识别在口语测试集上的准确率超过60%；在车载、智能家居的场景里，可以达到90%的准确率。不过最近两年，国内外关于读唇语AI的研究尚未有突破性的进展。

一只成熟的唇语识别AI，在未来可以有很多应用。

在背景音嘈杂的环境中，它可以准确识别对方在说什么，不管对方有没有发出声音。如果我们想在安静的公共场合用语音交流，或者想偷偷使唤siri定个时、放首歌，甚至为了保密而只动口型，都可以用唇语识别。

唇语识别也可以应用在身份认证中。现在的人脸识别系统，可能会被带有人像的图片、视频蒙混过关；如果能将人脸识别和口令密码相结合，并采用唇语识别技术进行检测，安全性将会大为提高。

当然，对于拿着显微镜看剧的cp粉来说，唇语识别AI恐怕还是直达隐晦兄弟情的重要道具。可惜的是，经过一番搜索，我们仍未找到能够给任意视频识别唇语的理想AI。所以，拜托科技公司搞快点，嗑学家们需要你们！

不懂唇语，怎么嗑到糖！

参考文献：

[1]Chung, J. S., Senior, A., Vinyals, O., & Zisserman, A. (2017, July). Lip reading sentences in the wild. In 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (pp. 3444-3453). IEEE.

[2]Assael, Y. M., Shillingford, B., Whiteson, S., & De Freitas, N. (2016). Lipnet: End-to-end sentence-level lipreading. arXiv preprint arXiv:1611.01599.

[3]https://www.theverge.com/2016/11/24/13740798/google-deepmind-ai-lip-reading-tv

[4]https://www.theverge.com/2016/11/7/13551210/ai-deep-learning-lip-reading-accuracy-oxford

[5]https://www.newscientist.com/article/2113299-googles-deepmind-ai-can-lip-read-tv-shows-better-than-a-pro/

[6]https://ai.sogou.com/product/lip_recognition/

[7]任玉强;高安全性人脸识别身份认证系统中的唇语识别算法研究[D];中国科学院重庆绿色智能技术研究院;2016年

[8]如何评价近期搜狗推出的“唇语识别”系统？“唇语识别”有哪些应用场景？https://www.zhihu.com/question/264044094

https://en.wikipedia.org/wiki/Lip_reading

[9]雷江华, 张凤琴, 方俊明. (2004). 字词条件下聋生唇读汉字语音识别的实验研究. 中国特殊教育, 53(11), 37-39.

[10]雷江华, 鲍博. (2018). 我国听障学生唇读认知实验研究进展. 中国听力语言康复科学杂志, 16(3), 165-169.

[11]徐诚. (2013). 唇读研究回顾：从聋人到正常人. 华东师范大学学报(教育科学版), 31(1): 56-61.

本文来自微信公众号：果壳（ID：Guokr42），作者：小毛巾，麦麦