创立半年融资近千万美元,「Jina AI」打造下一代开源神经搜索引擎开发平台
作者:李子月
编辑:石亚琼、王艺瑾
开源的发展经历了三个历史阶段。开源1.0开始于1970年左右,在这个阶段开源意味着免费,一些大学和研究机构将技术公开给大众。此时的开源并不存在商业模式,更近似于一种自由主义的精神追求。代表公司包括GNU和BSD。开源2.0起始于1990年Linux的发布,大众开始发现开源在效率和质量上的优势,更多人开始投入操作系统建设。当时的商业模式多为免费软件+付费咨询操作系统建设和使用,但实力无法和闭源软件抗衡。这个阶段的代表公司包括Redhat和MySQL。开源3.0为SaaS时代,很多软件通过云端模式供应,用户无需知道云端背后的软件是开源还是闭源,开源公司和闭源公司拥有相似的估值。在这个阶段,不仅商业模式已经转变,人们对于开源的态度也开始转变。有一大波收购和上市,如MySQL被Sun后又被Oracle收购, Github被微软收购,Redhat被IBM收购。从2013年的4家至今已有50家开源公司上市,包括Elastic和MongoDb。
开源的优势包括源代码可获取、同行审阅从而提高质量和安全性、便于开发减少市场化时间、特性定制等。然而开源软件大都是免费的,如何盈利成为开源公司的巨大挑战。
近日,在36氪采访中,开源神经搜索公司Jina AI的创始人肖涵详细解释了选择深度学习搜索和做开源的理由和难点、商业化开源的盈利模式以及行业竞争格局等关键问题,并分享了对于中德人工智能和创投环境的看法。
肖涵为Jina AI创始人及CEO。2018-2020年在腾讯AI Lab负责基于深度学习搜索项目研发,打造通用学习搜索引擎GNES。2019年肖涵作为是腾讯开源办公室成员,代表腾讯担任LFAI开源基金会董事,并促进腾讯加入TODO基金会。此前肖涵在德国Zalando公司担任高级研究员。2014年获得德国慕尼黑工业大学计算机博士学位。肖涵的Fashion-MNIST和Bert-as-service分别于2017年和2018年被评为世界范围内最流行的开源项目之一,Fashion-MNIST数据集学术引用量更超过三千余篇。
(Jina AI 创始人肖涵 图片来源:采访供图)
Jina AI是一家专注基于深度学习模型搭建搜索引擎技术的开源商业公司,打造下一代的开源神经搜索引擎开发平台,通过深度学习和人工智能搜索能力的结合做到全内容搜索,无论是文本、图片、语音、视频、源代码、元数据亦或是文件都可以称为搜索引擎输入源进行全域全方位搜索。联合创始人包括CTO王楠和COO何烜彬(入选福布斯2020年中国30岁以下精英榜)。Jina AI创立于2020年2月,半年内融资近千万美元:创立初期获云启资本领投种子轮融资,2020年9月获GGV领投、云启资本和SAP跟投Pre-A轮融资。公司员工23人,其中外籍员工17人,分布在柏林、北京办公室及全球各地。
为何选择做深度学习搜索
Jina AI的核心开源框架Jina从5月开源至今已经在Github上累计超过1.7K关注,贡献者近百人(http://github.com/jina-ai/jina)。至于为何选择深度学习搜索,肖涵表示,企业级IT和消费市场中,搜索是一个基本的需求场景,然而目前的搜索引擎系统不论是闭源还是开源的开发系统,都无法满足日益增加的搜索类型的场景需求,非结构化的数据搜索需求已经越来越多。同时,从数据驱动的统计到认识/AI驱动的洞察也在不断地更新产品的商业化需求。Jina AI做的是一套针对B端用户的通用搜索框架和编程范式,开发者和企业客户可以基于此,以更低的开发运营成本快速地搭建具有多模态甚至跨模态搜索能力的搜索系统。
肖涵指出,做深度学习搜索的难点在于如何让更多的用户接受这个通用编程范式。这是一件野心很大的事情,因此目前并没有很多公司敢于尝试,而他本人在深度学习搜索和开源领域的丰富经验和知名度将成为优势。但同时正是这种难度和创始团队的优势为Jina AI带来了很高的估值。行业壁垒高导致同类公司少,但同时也意味着能够进入这个赛道的对手都很强劲,如互联网巨头Google,Facebook,微软和Elasticsearch。这些互联网巨头的内部都会对深度学习搜索有所涉猎。对比搜索巨头Elastic肖涵表示,Elasticsearch主要针对文本搜索,是属于文本内容时代的杰出产物。Elasticsearch代表了文本搜索时代的最佳实践,而Jina则代表了在多模态时代下的搜索范式和最佳实践。每一个时代都有符合当下的范式,正如在计算机程序设计从面向过程范式迈向面向对象的范式;随着搜索媒介的丰富,这种搜领域变迁也正在发生。新的设计范式意味着更清晰简洁的工程架构,业务逻辑和更强的可维护性。对于那些需要从0到1去开发多媒体搜索AI的开发者和公司,Jina能够帮助节省大量的时间。
(图片来源:采访供图)
为何选择做开源公司
谈及为何走上开源这条道路,肖涵说明了两点原因。一是做开源的必要性:构建搜索通用编程范式这件事情凭借Jina AI自己的力量是不够的,开源商业化公司可以通过建立活跃的神经搜索开源社区来促进产品能力完善。二是其在开源领域丰富的经验:他从一个开源社区贡献者,到公司内部开源的领导者再到一个开源公司的创业者,肖涵在过去几年从不同的角色那里积累了开源赛道的经验和打法。
肖涵认为,开源的难点在于社区的经营,他提出了开发治理(Open Governance)的理念。很多人以为开源就是把代码放到Github让人公开下载就完了,其实不然。真正做开源时会发现如何让软件和背后的社区可持续性发展非常重要,也会耗费大量的精力。社区的激活与维护难度很大,尤其是技术社区,不是说起就能起来。技术人员对效率和技术的追求近乎偏执,要想从他们那里获得认可,公司就需要注重不断分享最佳技术给社区开发者,二者相互成就。与同类公司相比,除创始人和Jina AI团队的影响力以外,肖涵表示,他们还非常注重选择有开源方面投资经验的投资方。如种子轮投资方云启资本(曾投资开源公司PingCAP)、Pre-A轮领投GGV(曾投资很多开源公司,包括HashiCorp)。
同时,并不是所有的开源软件都会被企业采购和使用,企业筛选要点在于软件在开发流程和历史上是否合规,使用的许可证是否宽松,依赖的上游软件是否合规等。在这个问题上,国际上已经形成了一套最佳实践和相关标准,可参考www.openchainproject.org。
商业化开源的盈利模式
肖涵指出,包括Jina AI在内的大部分商业化开源公司(Commercial Open Source Software)目前都遵循开放内核的商业模式,即开源和闭源的结合,只免费提供核心程序。根据开源和闭源的比例不同衍生出不同的商业模式,对部分特性进行分级,针对不同等级采用不同的免费和收费模式。如90%开源通过插件等周边生态实现商业化,不提供云服务和私有化部署;10%开源则通过SaaS实现商业化,只提供因服务,不支持私有化部署。
(图片来源:采访供图)
常见付费服务包括:稳定性,可用性和安全性(RAS),配套工具,性能监视,用户管理及合规,嵌入服务扩散。AI商业化开源方面包括:模型偏向性分析,超参数的高效调整,基于图形界面的低代码、无代码环境开发,训练和预测性能分析评估,数据合规和易于部署在异构计算设备上的FPGA、NPU。可以理解为对于社区开发者不是很重要,而对于企业非常重要的服务。
肖涵指出,做开源公司是一件非常需要耐心的事情,过早的盲目追求商业化对于一个开源软件及背后的社区都将是沉重的打击。因此,在有足够资金支持的情况下,开源公司前几年都应着重打造技术和社区化。已上市的Elastic,Mongodb和被收购的Github从成立之初到商业化一般经历4-6年。Jina AI预计研发阶段会持续到2022年,预计初期客户主要为中小型企业,因为他们的搜索架构较为真空,而大企业早已形成了一套完整的难以撼动的搜索体系。一些非IT行业也相对容易进入,如并非以搜索为主营业务的电商、金融科技公司等,因为其搜索团队较小,很难独立构建功能全面、智能的搜索系统。
中德人工智能和创投环境
肖涵在德国留学并工作,也在腾讯深圳就职过。今年初又来到德国柏林创立Jina AI,谈及往返与中德之间的原因,肖涵提出了几点。第一,开源公司从第一天起一定要是国际化的,真正的人才也都是跨国界的。在采访中肖涵也数次强调,柏林是Jina AI国际化的第一步。公司员工分布于德国、中国、印度、美国、荷兰、西班牙等国家,外籍员工超过半数。在德国多年的学习和工作经历使其积累了丰富的人脉资源,将其作为国际化的起点是明智的选择。第二,欧洲高技术人才劳动力成本低于中美,生活消费较低劳动保障完善。第三,从思维方式上,欧洲开发者对于开源理念的认同非常普及,能够对公司技术文化的发展起到良好的点击作用。
肖涵还分享了其对于欧洲人工智能行业的一些观点。欧洲因其由多个不同语言文化的国家组成,与中美单一语言文化市场相比,C端市场小而分散,不适于产品扩张。除此之外,欧洲经济多年的负增长导致欧洲投资者更追求短期回报:在公司婴儿期时就欲持有其大量股份,这样不利于初创公司长期发展。同时,由于本地化的格局限制,很多欧洲创业者将公司规模做大的欲求不高,估值即便偏低也愿意卖出。在开源方面,正如上文所说,欧洲开源意识强但投资保守。中美投资者对于开源的投资都很积极,美国在投资力度和开源意识上发展均衡,中国投资力度大且开发者的对开源文化的认同正逐年提高。
但肖涵表示,欧洲在人工智能领域还是具备实力的。欧洲人工智能理论研究起步早,人才培养方面也排在世界前列。欧洲对于科技的开放合作,数据合规,知识产权,社会责任等方面的工作都非常值得学习。
相关推荐
36氪首发|针对稀疏化神经网络开发高算力AI芯片,「Moffett AI」获近千万美元天使轮融资
36氪首发 |「涛思数据」获GGV等近千万美元Pre-A轮投资,研发开源的物联网大数据平台TDengine
36氪首发 | 致力打造下一代云原生分布式消息系统,「StreamNative」完成源码资本数百万美元 Pre-A 轮融资
创投日报|「心玮医疗」获数千万美元C轮融资、新职教平台「职问」获腾讯双百计划近千万扶持;以及今天值得关注的早期项目
创投日报 |「云顶新耀」获3.1亿美元C轮融资,「融慧金科」获千万级美元B轮融资;以及今天值得关注的早期项目
36氪独家|「Zilliz」获4300万美金全球开源基础软件最大单笔B轮融资
创投日报| 「Menxlab漫仕」获千万级天使轮融资,「GANOR佳诺教育」完成pre-A轮融资以及今天值得关注的早期项目
36氪首发 | 基于问答社区建立“新一代搜索引擎”,「HOW好好搜索」获Pre-A轮融资
基础软件+开源,为什么是现在?
最前线 | 旷视决定开源AI“生产力工具”,能否比肩谷歌、脸书?
网址: 创立半年融资近千万美元,「Jina AI」打造下一代开源神经搜索引擎开发平台 http://www.xishuta.com/newsview36361.html
推荐科技快讯
- 1问界商标转让释放信号:赛力斯 94963
- 2人类唯一的出路:变成人工智能 19337
- 3报告:抖音海外版下载量突破1 19054
- 4移动办公如何高效?谷歌研究了 18573
- 5人类唯一的出路: 变成人工智 18435
- 62023年起,银行存取款迎来 10137
- 7网传比亚迪一员工泄露华为机密 8198
- 8顶风作案?金山WPS被指套娃 7105
- 9大数据杀熟往返套票比单程购买 7050
- 10五一来了,大数据杀熟又想来, 6947