网易有道AI语音团队负责人孙艳庆:AI技术如何更好与硬件结合|2021 CTIS
网易有道AI语音团队负责人孙艳庆
6月9日,首届CTiS 2021消费者科技及创新展览会在上海新国际博览中心正式开幕。在钛媒体联合CTiS共同打造的“AI·创新数字生活主题论坛”上,网易有道AI云团队负责人孙艳庆博士分享了AI技术在网易有道智能硬件中的一些应用。
网易有道产品,除了智能硬件之外,还有大家熟悉的有道词典等工具类的产品,以及精品课在线类的学习服务,包括数字类的教育。这里面有哪些AI技术,以及这些AI技术到底怎么样能够很好的和硬件形态进行结合?在孙艳庆看来,一定要找到一个痛点,具体到网易有道的产品中就是怎么解决儿童的背诵、学习语言、查词等。
产品中的AI
以有道翻译来说,这是从2008年就已经开始做的一项技术,至今已经做了十几年,孙艳庆介绍,经过三到四代核心技术引擎的发展,目前已经变成了神经网络的翻译引擎。除了简单的文字翻译,还加入了很多模态的形式,比如说图片翻译、文档翻译、语音翻译、AR翻译。它除了在手机端联网的方式,还可以在离线,完全没有网络的时候去应用。而且在词典笔的形态上,就可以得到一个很好的落地。
此外,如果进行一个扫描或者点查,非常关键的技术是需要做OCR,就是把这个图片变成文字。有道的OCR技术目前支持100多种主流的语言文字,也可以在不同的场景下使用,比如说有时候扫描的并不是一个简单的单词或者例句,可能会是一个公式,或者手写的数学答案等等,所以针对不同的领域,也会做到一些定制的场景垂直化应用。
还有语音交互技术,比如在词典笔的场景下需要语音的录入,语音识别要想得到一个很好的效果,比如在场馆里会有很多噪音,就需要做声学前端的信号处理。当然也有把这个单词读出来,去做语音合成。它其实就是通过语音进行人机交互的一个技术手段。
技术与硬件结合
如果直接把一个手机给到孩子,不仅要担心他学习的效果,也会担心他去玩游戏或者看视频。
孙艳庆介绍说,在智能软件的场景下,需要用手机从众多APP中去下载有道词典,再去打开它,找到所需要的功能页。而硬件的一个好处就是,拿到这个词典笔就可以直接去扫描或者点查,就能得到结果了,所以它会非常快。而且它会搭载和儿童,或者目标用户群体非常相关的功能,比如说互动点读。还有非常重要的一点,它是学习专用,可以带到课堂上。
词典笔用了哪些技术,这些通用的技术又是如何和硬件更好的结合起来的?
第三代词典笔在扫描、扫查的功能上又加入超快点查。这个功能让识别范围更广,除了纸面,包括很多商品的印刷品包装,都可以进行查词。
孙艳庆介绍说,具体是把多项技术、把OCR和OID进行了结合。在早期词典笔摄像头扫描的广角是比较小的,为了支持超快点查,硬件也做了很多适配,包括广角提升了300%的效果。所以AI和应用的联合,才能打造一个综合的更好的体验。这也是全球首创的技术。
词典笔不光能够查词,还可以去读绘本,和用户做互动。孙艳庆说,这个互动点读功能也是新发布的一个卖点,或者是一个杀手级的应用,它整个链条有这么几步:首先要在绘本上做一些铺码识别,还有麦克风双麦拾音,这样保证在嘈杂环境下也能有比较好的拾音表现,再加上语音识别。
如,学生在听了阅读的标准发音之后,他是可以进行实时的练习。传统上来讲,他要说完了才能给出一个打分,这样的体验不是特别及时。这个互动点读的功能,就可以在他边读的时候就边出文字,就跟背诵是很类似的效果。为了达到最终的体验,也需要通过AI的技术来处理大量的素材,包括绘本资源、图像和音频,包括字幕的对齐,字幕的生成等等。
所以,什么样的硬件是好的产品?什么样的AI技术是好的技术?以及技术和产品如何落地结合?在孙艳庆看来,一定要找到一个痛点,比如怎么解决儿童的背诵、学习语言、查词等等。
下一步探索
关于未来的展望,孙艳庆说,第一,希望语言的学习不局限在英文,还可以学习中文,包括还有一些朋友去学习第二外语或者第三外语;另外,产品支持全学科,不光在语言学习类,还会支持数学的公式扫描和识别。孙艳庆认为,知识体系的构建是非常重要的,包括学习的资源,包括很多知识点。这是教育更加综合的一个思路。
在英语的学习中,不同国家的用户他会有很多口音的差异,比如中国人说英语,中式英语,日本人说英语,以及印度人等等。全世界一百多个国家都把英语作为母语或者第二语言,其实英语的识别本身是非常有挑战的,口音成为对英语语音识别非常大的影响和挑战。
在 2020年语音届盛会Interspeech口音英语语音识别挑战赛中,网易有道研究人员提交的系统在口音识别任务中排名第二。可以看到的,在很多国家或者很多口音,识别率还是没有达到非常完美的效果。孙艳庆说,好的可以做到百分之九十以上,差的也就只有百分之六七十的效果,这个领域还是值得继续去探索。
除了口音英语值得探索,另外就是儿童发音,尤其是非母语的儿童去说英语,或者是其他的语言,更是难上加难,因为它叠加了两个挑战:非母语和口音。
今年Interspeech也有一项比赛,网易有道拿了两个赛道的第一名,“但即使是最好的成绩,错误率仍然是大于20%。这是什么概念?可能五个单词就会有一个是错误的。这和我们理解也是一致的,因为儿童发音有他的特点,因此本身这个任务就是比较难的。这个方向我们还会继续去探索。”孙艳庆说。
相关推荐
网易有道AI语音团队负责人孙艳庆:AI技术如何更好与硬件结合|2021 CTIS
“CTIS科技及创新大会”即将召开!
网易伏羲产品负责人李乐:AI赋能数字创意产业正当时,有灵AI将开放技术能力
AI技术走下神坛,深入产业应用成第三次发展浪潮关键|2021 CTIS
教育硬件,如何摆脱「智商税」标签
大力教育、网易有道开拓线下体验店,线下价值正被重估
解析丁磊的教育梦:网易有道IPO ,全线布局是好是坏?
解析丁磊的教育梦:网易有道IPO,全线布局是好是坏?
网易有道周枫:“先免费再付费”的创业思路走入死胡同,出路在哪? | CEO说
网易有道提交招股书 教育中公益与商业该如何平衡?
网址: 网易有道AI语音团队负责人孙艳庆:AI技术如何更好与硬件结合|2021 CTIS http://www.xishuta.com/zhidaoview20287.html
推荐专业知识
- 136氪首发 | 瞄准企业“流 3926
- 2失联37天的私募大佬现身,但 3217
- 3是时候看到全球新商业版图了! 2808
- 436氪首发 | 「微脉」获1 2759
- 5流浪地球是大刘在电力系统上班 2706
- 6招商知识:商业市场前期调研及 2690
- 7Grab真开始做财富管理了 2609
- 8中国离硬科幻电影时代还有多远 2328
- 9创投周报 Vol.24 | 2183
- 10微医集团近日完成新一轮股权质 2180