淘金AI时代的“卖水人”,数据标注为何没站上风口?
南美亚马逊河热带雨林中的蝴蝶,只要扇动几下翅膀,就会在两周后引发美国德克萨斯州的龙卷风。肯尼亚的数据标注工人,只需在鼠标上轻点几下,就能影响美国最庞大搜索引擎的搜索结果。
人工智能领域专家李飞飞曾分享过一个故事:在开启备受关注的ImageNet项目后,为了让机器理解图片内容,他们需要对10亿张图片进行标注,这项工作难度不大,但浩如烟海的数据量却不是一个小团队能够完成,即便她和博士生不吃不喝不睡,也需要20年时间才能做完。
最终,图片的标注被作为众包项目分配给了全球167个国家的5万名参与者,所有人耗时三年时间才将项目完成,而据李飞飞描述,这些互联网上参与标注的人中,很多人并不知道自己亲身参与了如此重要的科研项目。
这个故事至少说明了两个重要事实:其一,在人工智能领域,有多少人工就有多少智能,数据标注是让机器理解世界的前提;其二,数据标注的工作并不复杂,但耗费大量的人力和时间,因此众包成为一种有效手段加速算法进化。
数据有多重要?前百度首席科学家,人工智能领域专家吴恩达曾说:“AI系统就是代码+数据,绝大多数学术型竞争对手都不会去碰数据,只是让团队在代码上忙活,但却很少有团队不动代码,去在数据上下功夫。”
但当资本不断涌入人工智能领域,这两个重要事实便催生出一个由人工智能和外包相结合的基础行业——数据标注,并在过去几年时间飞速发展,成为人工智能领域绕不开的重要一环。
今年4月,以数据标注起家的硅谷创业公司Scale AI宣布获得3.25亿美元E轮融资,随后估值迅速攀升至70亿美元,在短短四个月时间里便完成了估值翻倍的“奇迹”,而从0到70亿美元,这家公司只用了短短5年时间,成为成长最快的SaaS公司之一。
但在大洋对岸的中国,同样的数据标注产业,既没有公司能做到Scale AI如此快速的成长,也没有出现任何高估值的超级独角兽,相关行业投融资事件更是逐年降低。
这种对比之下一个问题几乎脱口而出:为何明明存在优势,但中国却没出现数据标注巨型独角兽?是什么造成中美两国间数据标注行业差异?这一领域前景究竟如何?
淘金时代的“卖水人”
作为一条既不性感也不独特的赛道,数据标注曾让很多人工智能公司不屑一顾。因为在淘金般火热的人工智能领域,大多数公司目光都聚焦于追求更先进的算法、平台框架建设、商业化,而这些以技术为核心的公司往往也能很快脱颖而出并受到投资者青睐。
但数据标注却是一项吃力不讨好的体力活。其主要任务便是针对语音、图像、文本等进行标注,主要通过做标记、框对象、做注释等方式对数据集作出标注,再将这些数据集给机器训练和学习,往往工作量大,但工作难度较低,通常一个大学生经过一上午的培训就可以完成。
ImageNet项目以亲身实践告诉世人,只要寻找到足够人手,数据标注(还有数据采集)就不是问题,甚至外包人员不了解全貌也并没有影响最后的实验结果。从某种角度来看,这更像是劳动密集型产业而非高科技产业,门槛低、费时费力、回报率不高是很多公司不愿意做数据标注的原因所在。
但就在这些AI公司纷纷冲进赛场准备大力掘金之时,以Appen、Scale AI、Labelbox为代表的公司却敏锐洞察到这场淘金热背后稳赚不赔的买卖——数据标注,它们如同淘金时代的卖水人一般,揽下了“脏活累活”,却真正在人工智能领域做到“闷声发大财”,让人惊讶不已。
对这一领域的头部企业进行梳理便能看出行业现状:Appen通过提供或改进用于机器学习和人工智能产品开发的数据,在2015年上市,目前已经成为市值15.73亿澳元(约合11.59亿美元)的企业;Scale AI则在短短5年融资6轮,融资总额6亿美元,估值70亿美元;Labelbox则更为年轻,成立3年融资4轮,融资总额7900万美元,不过官方拒绝公布其估值。
这只是行业的一个缩影,但也足以证明数据标注的价值并不低。实际上,无论是从产业结构还是时间分配占比来看,数据标注都并非可有可无的存在,正是因为有优质数据存在,才会训练出优质的算法,而“垃圾数据只会制造垃圾算法”,正如Scale AI创始人Alexandr Wang曾提过的:
“机器学习绝对是一种垃圾输入、垃圾输出的框架——你真的需要高质量的数据来支持这些算法,这就是我们今天用这些数据集从开源角度推动行业发展的原因。”
知名深度学习项目DeOldify联合创始人Jason Antic也认可这一观点,在他看来“机器学习是一个‘黑盒’,AI从数据中抽取任何可能的规则。”所以数据标注不仅是人工智能技术的基础,更重要的是一旦它不能达到要求,结果可能非常糟糕。所以大公司不但有数据标注需求,更对高质量的数据有强烈需求。
正因如此,当我们再去思考海外数据标注公司为何估值如此之高时,不难发现他们在做的不仅仅是数据标注工作,更是将目光瞄准到如何生产优质数据、不断提高效率这件事上。比如Scale AI编写了Nucleus这套软件 ,帮助客户快速搜索数据并找到标记错误的例子,从而让客户提高人工智能算法的性能。
再比如新兴的Labelbox,其软件可以通过分析AI模型,指导数据科学家找到他们应该使用的标签,并预先标记数据以加快流程。Labelbox表示,其技术可以减少80%的人力。这很重要,因为从许多角度来看,仅标记过程就会消耗大量时间。
监督学习仍然是当前人工智能算法训练的主要方式,因此大规模、高质量的人工标注数据集是产业发展的刚需。但除了扩大人员规模这条简单的扩张之路外,硅谷公司在发明更好用工具这件事上有了更进一步的努力,这些努力也是为了适应数据标注新趋势:
第一,数据标注流程日益智能化。通过与标注技术和半自动化校验的方式辅助人工标注已经成为当前发展重点,业内涌现出一批标注工具,可对标记图像直接生成分割轮廓,并借助人工进行微调;
第二,标注数据的质量要求正不断提升。自动驾驶、工业制造等智能场景愈发复杂,高质量、精细化的标注数据直接影响算法鲁棒性(控制系統的稳定性)和准确性,标注准确率需求从90%提升至99%;
第三,医疗、工业等差异化垂直应用驱动数据标注服务进一步贴合个性化、多元化的场景需求。如Scale AI为自动驾驶场景提供标注服务,对车道、烟尘、尾气、雨水等更为个性化的目标物体进行标注。
但在趋势之外,这些硅谷公司依然在全球采用大量廉价劳动力从事数据标注服务,就这一点来看,中国公司和这些海外公司相比,差异似乎就小了很多。可无论在产业规模还是发展速度上,如今中国数据标注该企业都还和Scale AI有很大差距,要弄清楚这种情况出现的原因,我们就不得不去分析国内人工智能公司的创业以及生存环境。
创业者不能“大力出奇迹”
在中国,数据标注独角兽没有出现的首要原因,在于创业公司缺乏人工智能领域人才和数据。
根据2018年脉脉发布的《中国人工智能人才数据报告》中显示,人工智能相关人才几乎都聚集于百度、阿里、腾讯、京东等互联网科技巨头手中,而这些企业,更倾向于将数据掌握在自己手中。
不过,数据标注这样的体力活,巨头也需要通过自己平台的外包服务来解决。因此就出现了百度众测、京东微工、阿里众包、腾讯搜活帮等众多数据标注平台。
与初创公司相比,这些大平台无疑在外包服务领域具有较强的品牌竞争优势,并且更进一步,还吸收了国内廉价但更好用的数据标注劳动力,这意味着海外创业公司外包廉价劳动力到发展中国家的“大力出奇迹”方法在国内没有用了,所有这些都加剧了创业者从众包平台起步的难度。
不过,由于网络数据规模过于庞大,大公司们也意识到,即便自己拥有数据标注平台以及众多相关人才,但数据标注的成本也在不断增加。
一位业内人士举了个例子,比如市场人工翻译每单词平均价格约7.5美分,假设单个句子平均长度为30个单词,1000万个句子人工翻译标注的成本约为2200万美元;若需支持上百种语言的互译,人工标注训练集的成本将达到上千亿美元。
这样的开销并不少,因此一些不太核心的数据标注业务便被派给第三方公司以降低成本。比如腾讯参投的标贝科技,小米参投的海天瑞声等,这些公司承接了一些大公司的相关数据标注,逐渐在市场上存活下来。
不过,出于数据安全和市场竞争的原因,一些公司依然把重要的核心数据标注拿在自己手中。曾在英伟达自动驾驶组实习的研究员张航就表示“比如自动驾驶人命关天,通常是技术人员自己标注,而且雇佣培训了几位专门的标注人员。”
如此种种,便在国内造成一种现象:科技互联网公司扎堆人工智能,但数据标注行业却少有人踏足,一边是激烈的巨头竞争,一边是人才资源的缺乏。
相关数据也证明了这一点。数据标注公司从2014年开始不断增加,并在2017年达到高峰,根据前瞻产业研究院统计,2017年数据标注相关融资事件达到9起,但在此后便有所减少,到2021年4月,共有18家公司获得融资,投融资事件39起。
从融资规模来看,千万级人民币规模算是常态。即便是已经新三板上市的数据堂,如今市值也只有1亿元人民币左右。
至于“准上市公司”海天瑞声拟IPO融资7.66亿元人民币,这笔融资如果成功将是中国数据标注行业最大的一笔单额融资。但是,海天瑞声的上市之路也比较波折,在2019年因外界对其“人工智能(AI)”表述存在问题冲击IPO失败,尽管2020年再次传出IPO过会的消息,但在今年7月13日才刚刚获得证监会的“同意科创板注册”。
能够看出,这些融资较多的公司都已经不在“劳动密集型”的第一阶段,而是进入到了技术更迭以及垂直整合数据服务的下一阶段,可即便如此,在盈利方面依然无法和海外独角兽相比。
以海天瑞声为例,这是一家提供AI算法训练数据产品及解决方案的服务商,主攻方向是自然语义识别,语音合成。从2005年成立到2020年11月IPO过会,海天瑞声共经历了漫长的20年时间,如今其主要客户包含微软、阿里巴巴、百度、腾讯等巨头企业,但2020年总收入为2.33亿元,净利润仅0.82亿元。
Scale AI呢?这家公司自2016年成立至今,便吸引了包括Waymo、OpenAI、Airbnb、Nuro 和 Lyft 等公司,提供数据标注、解读数据、数据可视化、清洗数据等服务。更是在2020年9月首次和美国军方达成合作,拿下美国国防部9100万美元大单,协助美国军方试验、开发以及更新用于机器学习和AI的标注数据集,创始人曾在此前提到,其2020年营收将达到1亿美元。
还有一些国内公司,则在尝试新的赛道,比如把目光放在自动驾驶领域。以龙猫数据为例,经历4轮融资,可承担千万人以上样本量的数据采集和标注优势,自称是可调动数据处理人员最多的数据服务平台。
能够看出,即便是国内已经发展十五年的企业,在数据标注领域依然和海外公司存在一定差距,只有那些正确判断出人工智能产业变化趋势的公司,才能借风口获得扩张。但除了我们前面分析的市场竞争激烈以及人才缺乏问题外,还有什么是国内没有产生独角兽的原因呢?
中国独角兽何时能出现
关于中国之所以没能出现独角兽,赢识科技创始人兼首席执行官楚汝峰表示,竞争激烈和市场不集中是主要原因:“国内做标注的小作坊太多了,市场不集中。大公司或一定规模的公司的都或多或少有自己的外包团队,同时和外部标注团队合作。”
但同时他也认为,经历多年发展,一些有资历,有专业领域人才的数据标注公司能够具备一定的竞争壁垒,他们有机会继续成长起来。“例如当巨头寻求外部合作时,他们往往缺少某个领域的数据,这对数据标注公司来说就是一个绝佳的机会。”
腾讯优图实验室总监郑冶枫也有类似看法,他以医疗领域举例:“难点一方面体在顶尖的医疗数据标注人才缺乏,另一方面在于临床、科研任务重,很多医疗专家没有时间和精力做数据标注。”
不过,数据服务公司依然存在阻力,这种阻力来自于巨头。印度理工学院强化学习专家拉文德兰就曾提到“谷歌、微软和IBM这样的公司可以解决很多有趣的问题,而其他公司做不到是因为他们无法获得数据。”在他看来,科技巨头能够凭借数据积累加深自己的优势地位,这是数据服务公司不太能突破的地方。
但是,国内数据标注企业如果能在工具和效率上进一步提升,依然能够吸引巨头。
“比如海天瑞声,有规模的是语音数据(多语言、多语种、font合成等)。大公司自己采集效率太低,而这些第三方公司工具做的好。”楚汝峰表示,“这比大公司自己做效率高还便宜,几乎所有的语音识别公司都买他们的数据和标注服务。”
数据标注产业的行业规模也在逐年增长,艾瑞咨询统计显示,2019年国内人工智能基础数据标注行业市场规模为30.9亿元,未来几年的平均年增长率为21.8%,预计到2025年,国内人工智能基础数据标注市场规模将突破100亿元。
但无论是否能够成为独角兽,提升核心技术、继续扩展产品服务依然是数据标注公司活下去的关键。
中国信息通信研究院《人工智能核心产业白皮书》中提到:人工智能技术应用场景日益复杂化,使数据标注工作的难度再度提升。如对唇动视觉描述和语音信号融合预测单词,既需要对视觉进行标注,也需要对语音内容进行标注,数据标注成本将进一步提升,AI产业界倾向于加速对深度强化学习、自监督学习等范式的探索。
而像Scale AI这样的公司已经意识到了劳动力不再是数据标注的重点,他们将目光锁定在平台以及工具的深度开发商。曼孚科技就提到:“第三世界劳动力廉价,可以压缩成本,但Scale AI的平台工具已经在很大限度上淡化了人在其中的决定性作用,这成为企业竞争力的关键。”
所以近两年,国内外具有智能标注能力的数据服务企业开始受到资本热捧,相关收购的数额也较大。
2020年,专业数据标注企业LabelBox完成2500万美元B轮融资;龙猫数据获得3300万元Pre-B轮融资。智能化标注能力成为这一时期数据服务企业的发展重点;而传统数据众包平台企业也开始向专业数据标注企业发展,如Appen花费3亿美元收购Figure Eight;再比如Scale AI、Supervisely、马达智数等都推出了智能化标注工具。
这也从一个方面说明,中国诞生数据标注独角兽的条件在于继续深挖数据价值,发展智能化标注服务。百分点首席算法科学家苏海波就谈到,深度学习只有在拥有充足标注数据的场景下才能发挥它的威力,但在很多实际的应用中却没有足够的标注数据。
而在相关下游企业“陷入困境”与“高速发展”共存的环境下,数据标注企业也许将会迎来新一轮的整合期,大平台逐渐收购中小微数据平台,不但将自己议价能力提高到新水平,更好地挖掘人工智能数据的价值,也能在危机当中更稳立足。
当然,由于人工智能技术成熟周期相对较长,产业发展速度不及资本市场预期,经过最初的热度后,如今人工智能相关创业企业进展也开始放缓,资本热度开始减退,他们需要寻找更多市场,比如走向海外。
凯文·凯利曾在2015产业中国年会上对最具商业前景的机会做出预测,在他看来,“第一是人工智能,第二是众包众筹。”如今,当我们看到Scale AI这样的公司能够估值70亿美元并站在风口,就更能看到把众包模式纳入商业领域的强大竞争力,也能看到将数据服务面向全球市场带来的潜力,而选择出海,中国数据服务企业才可能真正和硅谷独角兽们竞争。
参考资料:
《人工智能核心产业白皮书》
《2021年中国数据标注行业需求现状与前景趋势分析》
《2021年中国数据标注行业投融资规模与投融资事件汇总》
《中国AI领域人才报告》
本文来自微信公众号“光锥智能”(ID:guangzhui-tech),作者:罗宁,36氪经授权发布。
相关推荐
淘金AI时代的“卖水人”,数据标注为何没站上风口?
美国淘金热和170年后的直播电商,都有一批「卖铲人」
AI 背后的印度数据标注生意
AI 数据标注不是“脏活累活”
最高精度99.99%:AI数据标注告别劳动密集进入技能密集时代?
云游戏风口,又见当年旧金山卖水人
“卖水人”药明康德:上市后净利润首降,股东疯狂减持
5G手机为何卖不动?
六看药明康德:帮助创新药企吹出华丽泡泡的“卖水人”
皮包批发与AI梦想收割术
网址: 淘金AI时代的“卖水人”,数据标注为何没站上风口? http://www.xishuta.com/newsview47539.html
推荐科技快讯
- 1问界商标转让释放信号:赛力斯 94831
- 2人类唯一的出路:变成人工智能 18279
- 3报告:抖音海外版下载量突破1 17828
- 4移动办公如何高效?谷歌研究了 17547
- 5人类唯一的出路: 变成人工智 17382
- 62023年起,银行存取款迎来 10009
- 7网传比亚迪一员工泄露华为机密 8000
- 8顶风作案?金山WPS被指套娃 6446
- 9大数据杀熟往返套票比单程购买 6423
- 1012306客服回应崩了 12 6370