“AI教母”发布新模型,只花了50美元,效果为何堪比DeepSeek?
转自:上观新闻
![](http://img.xishuta.com/upload/news/2025/0207/photos/middle/20250207221702_4199_o72jfh54.jpg)
![](http://img.xishuta.com/upload/news/2025/0207/photos/middle/20250207221703_4199_g8hkq70.jpg)
“DeepSeek冲击”余威仍在,近日,“AI教母”李飞飞团队推出的AI推理模型s1,在数学和编程测试中,与OpenAI o1和DeepSeek R1不分伯仲,更关键是训练成本仅50美元。如此低成本的推理模型,再度引发了业内讨论。
不过,记者从阿里云获悉,s1的研发并非从零开始,而是以通义千问Qwen2.5-32B-Instruct开源模型为底座,在16块英伟达H100 GPU上监督微调26分钟,训练出新模型s1-32B。另外,50美元只是s1模型的云计算服务费用,并不包含服务器、显卡等硬件成本。
此外,s1模型的低成本还离不开谷歌。记者从李飞飞团队的技术论文中发现,s1模型的训练数据集由1000个经过筛选的问题组成,这些问题对应的答案,则来自谷歌Gemini Thinking Experimental提炼出的推理过程。
也就是说,s1的基础模型来自通义千问,训练样本来自谷歌Gemini。s1的强劲性能,主要是站在阿里和谷歌的“巨人肩膀”上。
不过,业内人士告诉记者,s1这一套蒸馏推理的思路确实具有借鉴意义。
OpenAI和DeepSeek训练模型采用大规模强化学习方法,成本比较高,即便是DeepSeek V3也耗费近600万美元,而s1训练则通过小数据集和监督微调的方式对开源大模型进行“蒸馏”,在保证效率的情况下极大降低了训练成本。
同时,s1还采取了“预算强制”的技术来控制模型思考的时间,不仅能强制提前终止模型思考过程,还能多次追加“wait(等待)”指令延长思考时间,确保推理的可靠性。
![](http://img.xishuta.com/upload/news/2025/0207/photos/middle/20250207221703_4199_b1ur5hk.jpg)
技术论文展示了s1的“预算强制”技术。
“如果模型思考过长,直接让它停止并给出当前答案。如果希望模型多思考,就在它试图结束时追加等待提示,让模型进一步检查。”业内人士以考试为例,s1先在草稿纸上写推理步骤,“预算强制”就好比一个老师,根据题目难度控制草稿纸大小。如果题目难,允许s1多用几张草稿纸,如果简单,写完一页就交卷。这样既提高正确率,又节省时间。
值得一提的是,s1的成功离不开大模型的开源生态。以其基础模型通义千问为例,1月29日,通义千问旗舰版模型Qwen2.5-Max对外发布,预训练数据超过20万亿tokens(词元),通义Qwen模型已成为全球主流开源大模型之一。
同时,DeepSeek依然坚持全面开源,短短数日内,国内外主流AI平台宣布接入,也为DeepSeek的未来发展奠定了良好基础。
Meta首席人工智能科学家杨立昆认为,DeepSeek的成功就是开源研究和开源技术优势的最好证明,“这是开源模型的胜利”。这句话,套用在s1的成功同样合适。
相关推荐
“AI教母”发布新模型,只花了50美元,效果为何堪比DeepSeek?
李飞飞团队50美元训练出DeepSeek R1?
DeepSeek大模型专家交流
DeepSeek惊艳全球,美国大模型两巨头:并不比我们先进
DeepSeek风暴席卷全球,AI走进县城日常生活还要多久?
DeepSeek什么来头,何以震动全球AI圈?
DeepSeek新模型大揭秘,为何它能震动全球AI圈
DeepSeek再发新模型
DeepSeek来了,企业级AI部署会更简单吗?
阿里、百度、腾讯官宣!上线DeepSeek大模型
网址: “AI教母”发布新模型,只花了50美元,效果为何堪比DeepSeek? http://www.xishuta.com/newsview132393.html
推荐科技快讯
![](http://www.xishuta.com/upload/imgs/img_20190122031342.jpg)
- 1问界商标转让释放信号:赛力斯 95098
- 2人类唯一的出路:变成人工智能 20369
- 3报告:抖音海外版下载量突破1 20188
- 4移动办公如何高效?谷歌研究了 19575
- 5人类唯一的出路: 变成人工智 19484
- 62023年起,银行存取款迎来 10251
- 7网传比亚迪一员工泄露华为机密 8374
- 8五一来了,大数据杀熟又想来, 7898
- 9滴滴出行被投诉价格操纵,网约 7526
- 10顶风作案?金山WPS被指套娃 7171