首页科技快讯 DeepSeek扭转AI战局？谁说我们不能在“1到100”阶段异军突起

DeepSeek扭转AI战局？谁说我们不能在“1到100”阶段异军突起

来源：晰数塔互联网快讯时间：2025年01月30日 02:21

转自：上观新闻

DeepSeek在蛇年新春给全球科技圈带来的冲击波，丝毫不亚于两年前ChatGPT横空出世带来的震撼。

而这一次，“冲击波”来自中国。

1月20日，DeepSeek发布了性能对标OpenAI-o1正式版的新模型——DeepSeek-R1，仅用1周，Deepseek应用就同时登顶苹果中国地区和美国地区应用商店免费App下载排行榜。除夕夜，它又发布了多模态大模型Janus-Pro，成为其一个月内发布的第三款大模型。

有意思的是，DeepSeek成立至今只有1年多，仍算是一家创业型公司。这股称为“来自东方的神秘力量”何以震动全球科创圈？多位专家认为，它最大的价值在于以极低的训练成本实现了可媲美甚至超越全球顶尖大模型的性能，而在此基础上的模式之变、开源之变，都将为人工智能的发展带来积极的意义。

“击穿”关键变量，打破算力神话

如果只用一个关键词来形容DeepSeek给全球科技圈带来的冲击力，多位专家都给出了一个词——成本。事实上，ChatGPT自问世以来，围绕它最大的争议在于居高不下的成本，由巨量芯片堆叠以及巨大电力消耗换来的大算力，是否真的能支持大模型长远发展？

Deepseek在成本这一关键变量上给出了“暴击”。据了解，DeepSeek-R1模型训练成本仅为560万美元，远低于美国开放人工智能研究中心、谷歌等科技巨头的技术投入成本。有人做了个比喻：如果把研发大模型比作烧开水，把对算力的投资比作烧水用的燃料，那么OpenAI烧开一壶水用了一车煤，谷歌用了一车98号汽油，马斯克用了一车航空煤油，发现壶里的水才冒泡，而创业型公司DeepSeek点燃几根火柴，就烧开了一壶水。

成本的骤降，往往会引发整个商业逻辑的变化：算力固然重要，但如果一款大模型可以花更少的钱，得出同样的解决方案，那么依靠重度氪金“外挂装备”成就大算力的逻辑就被打破了。事实上，美股市场已经给出了“投票”：除夕前一个美股交易日，包括英伟达、谷歌、微软3家公司一夜蒸发了7625亿美元的市值，约合5.5万亿人民币。虽然美股涨跌与DeepSeek不能完全划上等号，但市场的摇摆已经相当明显。

美银证券分析师Justin Post在报告中就认为，成本的降低将大大加速大模型的商业应用：“如果模型训练成本被证明可以显著降低，我们预计使用云人工智能服务的广告、旅游和其他消费应用的公司将在短期内获得成本效益。”

重构AI叙事，闯出特色本土模式

如果把成本作为透视大模型发展的一个基点，往上看，成本骤减将对未来的商业模式带来深远影响；而往下看，它更重要的意义在于蹚出一条大模型的本土发展模式。

此前，有网友尝试让DeepSeek写一篇“玄武门之变后李世民内心独白戏”，在思考8秒之后，DeepSeek写下的700多字刷屏朋友圈。它的惊艳之处在于，一方面具备对历史背景的深度把握，另一方面在文字对仗、渲染等文学上的造诣极深。而如果你用过 DeepSeek还会发现，它在给出回答之前，还给出了思考的过程——这与ChatGPT直接给出结果的底层逻辑完全不同。

浙江大学计算机博士傅聪解读认为，DeepSeek-R1的模型使用强化学习技术进行“后训练”，让模型的推理能力得到了极大的提升。简单地说，就是通过学习CoT（思维链）的方式，一步一步推理得出结果，而不是直接预测答案。而Deepseek用极快的速度，验证了这一路径的可行性。

除了新训练方法，DeepSeek还有不少变化，比如开源、深度联网等。目前R1是少数支持联网的推理模型，不少用户认为，其在大语言模型（LLM）上更卓越的表现，大概率与其支持联网搜索有关。而DeepSeek的完全开源策略，促进了AI开发者社区的协作生态，硅谷顶级风投a16z创始人马克·安德森（Marc Andreeseen）对此评论认为，DeepSeek的开源“是给世界的一份意义深远的礼物”。

数字产业分析师郝智伟认为，DeepSeek“低成本+新训练方法+开源+联网”的新模式，从某种程度上重构了AI大模型的叙事语言，走出了与海外不同的实用主义道路，也让用户与高阶AI对话的门槛大大降低，加快国产大模型的普及速度。

弯道超车，对中国科创圈启示几何

前谷歌首席执行官埃里克·施密特（Eric Schmidt）周二在一篇专栏文章表示，DeepSeek的崛起标志着全球人工智能竞赛的“转折点”。或许，DeepSeek的“蝴蝶效应”才刚刚开始，但它对中国科创圈的意义更加重大。

回到DeepSeek的诞生背景，这是一家中国创业型企业，尽管其拥有上万张中高端算力卡的较好条件，但与中国绝大多数的科技企业一样，存在高性能芯片不足、资金条件有限的客观局限性，这意味着，通过堆叠高端硬件“大力出奇迹”的方式走不通，必须在有限算力的基础上进行架构、算法、数据利用等内功的探索创新。DeepSeek的成功有其独特性，但它也同时证明了一件事：高效率低成本的本土模式是能走通的，为2025年国内大模型的发展开了个好头。

郝智伟认为，这一趋势在2024年已经有所体现，特别是大模型深度用户和创业者明显感觉到，国内的大模型更懂他们这个群体，无论是文生文的豆包、Kimi，图生视频的即梦、可灵，还是声音生成的海螺AI，这些国产AI系统都有不俗的表现。他认为，中国在“从0到1”的破局上，或许错过了大模型最初的爆发红利，但并不代表不能在“从1到100”的阶段异军突起，大模型的比拼注定是一场马拉松。

正如DeepSeek创始人梁文锋此前接受媒体采访时所说：“过去很多年，中国公司习惯了别人做技术创新，我们拿过来做应用变现。但在这一波浪潮里，我们的出发点是走到技术的前沿，去推动整个生态发展。”

就在除夕夜，Deepseek再度发布了多模态大模型Janus-Pro，以“四两拨千斤”的模式，在文生图领域扮演了一条搅动全球科技圈的鲶鱼。

栏目主编：戎兵文字编辑：张懿