首页科技快讯 AI语音混战

AI语音混战

来源：晰数塔互联网快讯时间：2021年02月25日 19:43

编者按：本文来自微信公众号“探客Tanker”（ID:SQinsight），作者：行者，36氪经授权发布。

2018年5月15日，那个宣称“因担心新产品会把人吓尿而要求锤粉穿纸尿裤来参加发布会”的老罗，如愿以偿在能容纳10万人的鸟巢，端出了自己心目中的“办公神器”——锤子TNT。

但这场引人关注程度颇高的发布会，事后被很多人看作是老罗做产品中的“麦城”之一。尤其是他在现场为大家演示TNT工作站中语音控制以及输入功能时，频繁呼叫却没有任何反应或者系统错误频出，已经成为老罗搞的发布会中为数不多的“翻车梗”。

不过，老罗一直被业内认为是个爷们。会后他不停地向各个合作方道歉，认为是自己产品经理的技术整理和准备程度不够，“现场没有把合作方最优质的技术展现出来”。

而就在这场“翻车”的发布会结束两年六个月后，当时向锤子手机与TNT操作系统提供语音服务的云知声，正式向科创板提出了IPO申请。

据说该消息传出时，正在认真直播带货还债的老罗，在私下饭局上也对曾经的合作伙伴表示了恭喜。

但后面就没有然后了。

2020年12月13日，云知声IPO文件公布还不到一个月，科大讯飞在投资者交流平台上表示，云知声关于其语音病历市场、家电智能语音模组领域占有率高达70%的表述严重失实。科大讯飞对投资者回复中称，无论是在深度、广度还是营收规模上，科大讯飞在医疗、家电语音应用领域的智能语音应用，均远超云知声。

这就是所谓“科大讯飞打假事件”的开始。而这条新闻爆出后，业内对云知声上市的前景纷纷不再看好。

有意思的是，就在这半年多的时间内，与云知声和科大讯飞同处AI语音赛道的其他几家独角兽，纷纷探寻资本市场。

最新的消息显示，以语音通信和智能语音识别为卖点的PaaS企业容联云，在2021年2月9日成功赴美上市，上市当日收盘股价上涨200%。再加上最近被爆炒火热的Clubhouse，被证明背后的语音服务提供商就是2020年6月在美国上市的声网。

种种迹象表明，AI智能语音这个赛道，当下正迎来一场混战。

1、“被硬刚”的云知声

据官网介绍，云知声靠语音起家，医疗语音交互系统是其“成名作”。云知声宣称，其语音识别率为97%至98%。

在提交IPO申请前，云知声完成了8轮融资，投资方包括启明创投、高通创投、浙大联创投资、京东、奇虎360、中金公司、东方证券和中国互联网投资基金等，上市之前的估值已超过12亿美元。

2020年11月3日，云知声向上交所提供了招股书，申请在科创板上市。根据招股书披露，智能语音交互产品是云知声营收的主要来源，2017年至2019年的贡献占比均超过60%。而在2020年上半年，智能语音交互产品的营收占比降至28.15%，低于智慧物联解决方案67.17%的营收占比。

从数额上来看，云知声智能语音交互产品2017年至2019年与2020年上半年的营收分别为5926.07万元、1.56亿元、1.37亿元、2383.73万元，先增后降。云知声表示，该板块收入下滑主要原因是智能语音模组出货量大幅下降。

2020年上半年，其实现营收8468.93万元，净亏损1.06亿元。

此次爆发争议的，就是招股书中关于市场占有率的问题。云知声援引灼识咨询数据称，其通过与格力等白电巨头合作，市场占有率高达70%；在智慧医疗领域，其语音病历录入系统优势地位显著，市场占有率高达70%，病历质控系统逐渐发力，目前市场占有率约30%。

2020年12月11日，有投资者在互动平台就此向科大讯飞提问，科大讯飞在回复投资者提问时表示，云知声关于其语音病历市场占有率高达70%的表述严重失实。同时，科大讯飞还从覆盖医院数量、收入及公/私有云等维度列举详细数据对比，以佐证其观点。

科大讯飞表示，以覆盖医院数量来比较，云知声在2017年至今年上半年的四个报告期分别为10、36、91和112家，科大讯飞同期分别为11、77、264和489家。而从收入看，云知声上述时期智能语音病历收入分别为170.96万、926.39万、1628.91万和895.48万元，科大讯飞同期分别为664.28万、2937.27万、3554.48万和3571.11万元。

因此，科大讯飞认为云知声的市场数据有问题，对此云知声并未做出回应。

终止IPO后，云知声总经理黄伟业对外透露表示要“先发展业务，再看看”，他认为停止审核主要是公司业务发展的考虑，希望抓紧时间把业务做好。但云知声并不会放弃IPO，未来会适时考虑重启IPO的推进计划。

2、科大讯飞的强势

这场风波中的另一个参与者科大讯飞，其实在AI语音赛道，是一个让其他竞争者苦苦追赶的“领头大哥”。

1999年就已经进入这个领域的科大讯飞，很多语音识别的行业标准都是这家公司参与制定的，整个行业的发展路径也基本上遵循着这家企业的技术实现通道。

关键是，结合10年后出现的AI算法，科大讯飞在语音识别和相关领域的科研投入非常大，所获取的成果和专利，是其他行业企业无法比拟的。

天眼查相关数据显示，科大讯飞在智能语音方面的专利超过1900件，软件著作权超过673件，这两个数字不仅让同行无法比拟，还远高于此次风波中的云知声——云知声目前拥有594件专利和57件著作权。

因此，业内其实有个说法：在语音识别领域想要后来者居上的玩家，若无跨越式突破能力，最好别轻易入局，毕竟科大讯飞早已筑起专利墙。

另外，与越来越多参与这个行业的企业开始寻找细分市场来做突破不同，科大讯飞基本上从各个方面对语音识别以及图文识别、视频识别等方面，做了最深度的研发，并已经推出非常成熟的产品。

而财报数据显示，截至2020年11月30日数据，科大讯飞累计覆盖终端用户数超过30.2亿，企业应用方面，科大讯飞实现了396项B端的接入服务，已经采用科大讯飞技术的企业超过200万家。

据艾媒咨询《2020年上半年中国人工智能产业专题研究报告》显示，在智能语音赛道，科大讯飞整体实力远超同行业其他竞争者，领跑第一梯队，而后是百度、阿里云和思必驰等。

据「探客Tanker」观察，2020年疫情对科大讯飞的影响很大，尤其是在线会议的兴起，引发了B端用户对科大讯飞产品的关注。

为了方便远程办公，2020年科大讯飞在云会议中已通过精准语音识别为1000余家企业单位服务100万次远程视频会议，准确率最高可达97.5%。这些数字背后，其实意味着这种技术服务已成科大讯飞对B端产品的重要收入来源。

而培育多年的B端市场现在成为科大讯飞提升自己业绩的期望，也是其2020年市场拓展上升最快的板块。这也是为什么云知声IPO文件发布后，科大讯飞会对市场数据那么敏感的原因。

2021年2月3日，科大讯飞召开最新财报通气会，相关信息显示，2020年度科大讯飞的累计净利润为12.29亿元至13.93亿元，同比增长50%至70%。

但根据之前几个季报和半年报的数据可以推算，扣非后的真正净利润数据会比较低，应该在两亿元以内。毕竟，三季报时科大讯飞实现归属于上市公司股东的净利润和扣除非经常性损益的净利润分别为5.54亿元和8395.23万元。

这在一定程度上说明，AI智能语音这个赛道，目前还没有一个能快速增长的商业模式，哪怕是科大讯飞也还是处于业务的探索期，整个行业都还在对新的业务方向进行摸索和尝试，这其实也意味着AI语音行业蕴藏着新机会。

3、竞争者的变通

2020年6月在美上市的声网，以及刚刚完成上市的容联云，被业内人士认为是“聪明的企业”。

一方面，它们并没有在科大讯飞、百度和搜狗等竞争对手聚焦的语音识别赛道上，花费太大的精力。毕竟目前在这个领域，不管是商用的会议记录识别还是医用的病历录入等细分市场，还处于早期的开发阶段，成熟度并不高。

另一方面，掌握语音传输和识别技术的声网和容联云，看到了“声音交流”在互联网商业应用的前景。因此，与其说它们是主做语音识别的公司，倒不如说它们变成了两个“把所有跟语音相关的能力封装起来为第三方赋能”的平台型公司。

这也就是这两家公司都竭力推崇的PaaS模式。

当然，它们的重点在于语音的智能传输上，如何利用最便捷的手段、用最小的流量、通过占据最少资源的方式，将最清晰的语音传输到用户的手中是它们技术追求的目标。

与腾讯会议和ZOOM不同，这两家公司没有自己的使用场景，而是把所有的功能都封装成一个个的API接口，提供给第三方调取来获取相关的能力。

而容联云更进一步，这个平台还将文字图片传输的能力也结合在内，可以为用户提供类似软件内社交的能力，例如跟其他用户在平台上的沟通、或者与客服的直接对话等功能。

虽然取了巧，但这两家公司确实达到了目前中小互联网企业发展中的一个痛点，那就是对于很多基础的互联网技术，初创企业急需使用但又没能力投入大量的资金进行研发。

所以，声网在上市前IPO的过程中，曾向投行分析师表明自己公司的发展前景是利用智能语音传输与识别技术，搭建有利于物联网企业发展的基础设施。

此外，由于中国市场的另一个特点是：对云通讯表现出较大需求的是行业大客户，而这些行业大客户对标准化的产品不太感冒，他们大多愿意选择有定制化能力的服务商。因此，容联云在此之外还提供云呼叫中心（CC）、定制化的统一通信与协作服务（UC&C）等中大型客户需要的语音业务。

所谓云统一通信与协作，这类服务包含了即时通信IM、视频会议、电话会议及直播等服务。这种基于云的UC&C解决方案通过一个集中式门户来支撑业务通信和协作所需的多种通信功能，如即时通讯、音频、视频会议和电话，支持公有云、私有云等多种部署模式。

而这个业务对两家新上市的智能语音企业来说，其实就是它们新的业务突破口，而且与科大讯飞、百度和搜狗等这些巨头企业在智能语音赛道并没有形成直接竞争，反而是一个互利互补的关系。

这也是为什么这两家企业在最近一年内突飞猛进的原因。

4、为什么是智能语音？

这两年里，AI行业在中国掀起了一轮接一轮的投资高潮。但与那些逐渐沉寂下去的细分赛道不同，目前仍在市场中活跃的AI细分赛道里，智能语音算核心的一个。

原因特别简单。

当前，国际上对于人工智能基于算法实现的核心理论没有达成一致的认知。毕竟相关人工智能领域应对的无一不是非常复杂繁琐的状况，在量子计算机并没有投入使用的状态下，靠现有的计算能力无法利用算法来实现真正的人工智能。

而在中国，各家独角兽们发展中或多或少都遇到这个问题。中国人的解决办法是：派人教会系统。

这个“通过人工穷举各种可能发生的表现形式，然后让计算机记录再进行算法的执行”的过程，就是所谓的“数据标注”。与已经成为全球最大的AI市场相一致，在安徽、山东一带，也已成为全球最大的数据标注基地。

这些从事数据标注的人，被称作这个行业的“新民工”。

当然，人类在社会活动中时刻都会发生意外，为了解决这些意外带来的变化，AI领域的各个独角兽必须保持大规模的数据标注团队。

因此，有人开玩笑说，人工智能真的就是“人工”智能。也因此，2020年国际上就已经有科学家对外表示，现在已经实现的其实都是“伪”人工智能。

在这种过程中，语言由于核心词汇的可控性以及增量样本的易输入性，逐渐成为穷举法应对AI智能的一个标准案例。

因为每当用户使用科大讯飞的语音识别技术时，其每次纠正语音输出的结果，都意味着在动态帮助科大讯飞的语音处理数据库积累样本和数据。而这种自动通过用户的使用来校准人工智能精确度的方式，在其他赛道实现起来的成本太高或者推广力度要增加很多。

因此，智能语音成为当下仅存且还可保证强大市场活性的人工智能产品领域。

不过，这中间还存在巨大的问题。

毕竟，人工智能最基础的理论并没有得到事实上的证明。很多被刊发出的理论仍然处于推论阶段，而着急的市场已经在利用这些理论构建产品，这被看作是基于算法的人工智能目前最大的BUG。

在科学界看来，很多突发的信息扰动会造成莫名其妙的失误，这点想完全用纯算法解决，几乎不可能。

如果有新的突破性技术出现，从底层理论和算法上完成蜕变，那或将对国内目前成型的AI产业带来无法估量的变革。而在这方面，目前国内的关注度明显不够。

正如恒河之砂，搭不起万丈高楼一样。这种“穷举”的人工智能，如果不迭代，会出大问题。

倘若，“一刹那”能重来一次，也许多伦多大学的杰弗里·辛顿教授不会在2006年，对外发布自己的那三篇关于深度学习的论文。

因为他没想到的是，仅仅一个源自实验室的设想，如今已变成了超过千亿美元的大生意并发展得超乎了人们的想象，尤其在资本市场风起云涌的中国。

AI语音混战

1、“被硬刚”的云知声

2、科大讯飞的强势

3、竞争者的变通

4、为什么是智能语音？

推荐科技快讯

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

人类唯一的出路：变成人工智能（三）

饿了么口碑：今年计划招5000名员工、增80万骑手

盖茨力劝美国用核技术解决气候变化愿掏数十亿腰包

AI语音混战

1、“被硬刚”的云知声

2、科大讯飞的强势

3、竞争者的变通

4、为什么是智能语音？

推荐科技快讯

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

人类唯一的出路：变成人工智能（三）

饿了么口碑：今年计划招5000名员工、增80万骑手

盖茨力劝美国用核技术解决气候变化 愿掏数十亿腰包

盖茨力劝美国用核技术解决气候变化愿掏数十亿腰包