DeepSeek的崛起,其实并不意外
来源:哈佛商业评论
颠覆理论预测了DeepSeek及其同类产品的出现和发展。事实上,未来几个月内其他颠覆者的出现并不会令人意外。特别是小型语言模型(SLM),它们使用的数据更少、资源更少,可能会在未来几个月内成为挑战美国和中国LLM的另一种技术。
中国人工智能初创公司DeepSeek近期引发了广泛关注。1月20日,该公司发布的新模型在性能上足以与美国领先人工智能公司(如OpenAI和Meta)的模型竞争,其规模更小、效率更高且训练和运行成本低得多。
然而,从管理理论特别是“颠覆性创新”理论来看,DeepSeek的成功或许本可以预见。颠覆性创新的核心在于提供低成本的替代方案,这些方案虽非尖端技术,但足以满足许多用户的基本需求。DeepSeek正是凭借这种模式,冲击了美国人工智能行业的传统认知,并引发了科技和能源股的波动。
如果管理理论能够解释这一现象,那么它同样可以为未来的发展提供启示。基于技术变革理论,我们探讨了这一颠覆对全球企业的影响,尤其是它们的领导者在选择授权使用中国还是美国的大型语言模型(LLM)时所面临的抉择。
中美LLM的差异
中国LLM与美国LLM在两个关键方面存在显著差异:首先,中国LLM通常使用更便宜的硬件,并借助开放架构降低成本;其次,许多中国LLM专注于特定领域的定制化应用,而非通用任务。不过,像DeepSeek-R1这样的模型正在逐渐向通用推理模型转变。
美国LLM通常依赖最先进的GPU集群进行训练,这些集群包含数万个英伟达的高端芯片,需要巨额资本投入和强大的云基础设施支持。相比之下,由于先进芯片的出口管制,中国LLM更多地依赖于在多个较弱的GPU上进行分布式训练。尽管硬件条件有限,但通过高效的架构设计,中国LLM仍能实现具有竞争力的性能。例如,DeepSeek的多头潜在注意力(MLA)和专家混合(MOE)架构通过减少内存使用,提高了计算资源的利用效率。
开源代码库的广泛应用也是中国LLM发展的重要推动力。DeepSeek-V3(其最新推理系统的基础模型)和DeepSeek-R1均在麻省理工学院(MIT)开源许可下发布。这种宽松的许可方式允许用户自由使用、修改和分发软件,包括用于商业目的,从而极大地促进了技术的普及和应用。这种高效架构和开源策略在训练成本上的优势尤为明显:DeepSeek报告的V3训练成本为560万美元,而美国公司如OpenAI和Alphabet的LLM训练成本则高达4000万至2亿美元。
此外,美国LLM侧重于基于全球数据集的通用查询训练,而许多中国LLM则专注于特定领域的精准应用。中国的科技巨头(如阿里巴巴、腾讯、百度和字节跳动)以及新兴初创公司(如DeepSeek)都通过LLM开发了深度融入中国数字生态系统的行业特定应用。
总结来说,中国LLM依赖于不太先进的硬件,并专注于低端、特定领域的应用,这些应用对计算能力的要求较低,成本也更低。例如,阿里巴巴的通义千问和字节跳动的豆包1.5pro的每100万输出标记的成本不到0.3美元,而OpenAI和Anthropic的高端模型则超过60美元。
这正是经典的颠覆理论在发挥作用。这与几十年前美国小型钢厂颠覆综合钢铁厂的情况如出一辙。颠覆理论预测,一种在初始阶段劣于现有技术(如电弧炉)的技术,针对特定低端任务(如生产低质量钢筋)进行定制,最终将对专注于高端客户(如高端钢板客户)并提供更高利润的高端生产商(如综合钢铁厂)构成威胁。慢慢地、稳步地,颠覆者提升其产品的质量,而现有企业则在市场细分领域一个接一个地向颠覆者让出市场份额。
颠覆理论预测了DeepSeek及其同类产品的出现和发展。事实上,未来几个月内其他颠覆者的出现并不会令人意外。特别是小型语言模型(SLM),它们使用的数据更少、资源更少,生成的内容质量也较低,可能会在未来几个月内成为挑战美国和中国LLM的另一种技术。
未来展望:全球企业如何应对?
DeepSeek的崛起引发了全球企业的一个关键问题:是选择授权使用美国LLM,还是中国LLM,亦或是两者都选?在此,管理理论中的技术多样化策略提供了重要的参考。
在企业内部部署多种LLM模型的一个显著优势是风险分散化。对于LLM而言,这意味着可以降低供应商端停机带来的影响。例如,如果OpenAI的服务因故中断,企业可以迅速切换到其他供应商的模型,确保业务的连续性。
使用多种模型的另一个好处是聚合优势。不同的模型基于不同的算法,对同一问题可能给出不同的答案。研究表明,通过聚合多个模型的预测结果(即“集成”方法),通常能够获得更高质量的输出,尤其是在处理复杂、模糊的任务时。事实上,像Openrouter这样的平台已经提供了一个集成界面,允许用户实时比较180多个模型的性能和成本,从而实现更优的选择。
然而,与单一供应商合作也有其优势,例如降低管理成本和增强双方对彼此能力的理解。使用多个模型可能会增加数据隐私和安全风险,因为数据需要在多个供应商之间共享。尽管这种风险在所有LLM中都存在,但跨国家/地区(如美国和中国)的数据使用和监管框架差异,会进一步增加复杂性,尤其是在医疗保健等敏感领域。
管理理论还提出了第三种策略:多元治理。这种策略结合了外部供应商和内部开发人员的力量,以充分利用新兴技术。研究表明,那些在内部培养特定技术人才的公司,往往更能从新技术的出现中受益。在LLM领域,这意味着企业可以利用美国LLM处理通用任务(如为专业服务公司开发辅助研究的聊天机器人),同时利用中国LLM开发公司特定的应用(如人力资源培训机器人)。
进一步来看,低成本、开源的LLM模型(即使其能力稍弱)将使企业能够开发出适合自身需求的定制化模型。随着时间推移,这些低成本、低质量的模型可能会逐步颠覆高成本的高端模型,就像小型钢厂曾经颠覆综合钢铁厂一样。
尽管存在数据隐私和安全问题(近期TikTok事件引发了关注),美国LLM如果忽视中国LLM带来的颠覆性威胁,将面临巨大风险。他们至少应该警惕那些利用小型语言模型(SLM)等技术的美国本土颠覆者。大型美国人工智能公司也可以尝试自我颠覆(例如,通用电气开发手持超声设备以颠覆传统超声业务),但研究表明,自我颠覆极为困难。前期对昂贵芯片、硬件和训练数据的投资(这些已成为沉没成本)以及对高利润解决方案的依赖,可能会使大多数美国人工智能公司继续专注于高端LLM,而非转向更便宜但“足够好”的LLM。
对于全球企业而言,LLM领域的颠覆为投资内部技能和开发定制化模型提供了机遇,这将有助于实现更有针对性的应用、降低成本并提高投资回报率。
关键词:DeepSeek
普里特维拉杰·乔杜里(Prithwiraj Choudhury)、纳塔拉贾恩·巴拉苏布拉马尼安(Natarajan Balasubramanian)、徐明弢(Mingtao Xu)| 文
普里特维拉杰·乔杜里是哈佛商学院的Lumry家族副教授,也是《管理科学》杂志的副主编。纳塔拉贾恩·巴拉苏布拉马尼安是雪城大学惠特曼管理学院的阿尔伯特和贝蒂·希尔讲席教授。他的研究聚焦于技术、人力资本、组织学习和创新如何推动商业价值创造。徐明弢是清华大学经济管理学院创新创业与战略系副教授。他的研究专注于创新中的产权问题以及人工智能的战略意义。
Kimi | 译 周强 | 编校
相关推荐
DeepSeek又刷屏!百万年薪“招兵买马”
一夜之间,微软、英伟达、亚马逊全部接入DeepSeek!吴恩达:中国AI正在崛起
变天:由一个惊艳例子引发对Deepseek的10条思考
当我用DeepSeek来写DeepSeek
俄外长:DeepSeek超越美国
DeepSeek 的爆红,指出了当下AI 最大困境
DeepSeek火爆全网,OpenAI首席执行官发声
为什么没人说DeepSeek的数学和代码?
阿里云裁员,并不意外
DeepSeek启示录:伟大不能被计划
网址: DeepSeek的崛起,其实并不意外 http://www.xishuta.com/newsview132277.html
推荐科技快讯
- 1问界商标转让释放信号:赛力斯 95088
- 2人类唯一的出路:变成人工智能 20304
- 3报告:抖音海外版下载量突破1 20127
- 4移动办公如何高效?谷歌研究了 19524
- 5人类唯一的出路: 变成人工智 19425
- 62023年起,银行存取款迎来 10245
- 7网传比亚迪一员工泄露华为机密 8365
- 8五一来了,大数据杀熟又想来, 7851
- 9滴滴出行被投诉价格操纵,网约 7477
- 10顶风作案?金山WPS被指套娃 7167