首页 科技快讯 “AI教母”发布新模型,只花了50美元,效果为何堪比DeepSeek?

“AI教母”发布新模型,只花了50美元,效果为何堪比DeepSeek?

来源:晰数塔互联网快讯 时间:2025年02月07日 22:17

转自:上观新闻

“DeepSeek冲击”余威仍在,近日,“AI教母”李飞飞团队推出的AI推理模型s1,在数学和编程测试中,与OpenAI o1和DeepSeek R1不分伯仲,更关键是训练成本仅50美元。如此低成本的推理模型,再度引发了业内讨论。

不过,记者从阿里云获悉,s1的研发并非从零开始,而是以通义千问Qwen2.5-32B-Instruct开源模型为底座,在16块英伟达H100 GPU上监督微调26分钟,训练出新模型s1-32B。另外,50美元只是s1模型的云计算服务费用,并不包含服务器、显卡等硬件成本。

此外,s1模型的低成本还离不开谷歌。记者从李飞飞团队的技术论文中发现,s1模型的训练数据集由1000个经过筛选的问题组成,这些问题对应的答案,则来自谷歌Gemini Thinking Experimental提炼出的推理过程。

也就是说,s1的基础模型来自通义千问,训练样本来自谷歌Gemini。s1的强劲性能,主要是站在阿里和谷歌的“巨人肩膀”上。

不过,业内人士告诉记者,s1这一套蒸馏推理的思路确实具有借鉴意义。

OpenAI和DeepSeek训练模型采用大规模强化学习方法,成本比较高,即便是DeepSeek V3也耗费近600万美元,而s1训练则通过小数据集和监督微调的方式对开源大模型进行“蒸馏”,在保证效率的情况下极大降低了训练成本。

同时,s1还采取了“预算强制”的技术来控制模型思考的时间,不仅能强制提前终止模型思考过程,还能多次追加“wait(等待)”指令延长思考时间,确保推理的可靠性。

技术论文展示了s1的“预算强制”技术。

“如果模型思考过长,直接让它停止并给出当前答案。如果希望模型多思考,就在它试图结束时追加等待提示,让模型进一步检查。”业内人士以考试为例,s1先在草稿纸上写推理步骤,“预算强制”就好比一个老师,根据题目难度控制草稿纸大小。如果题目难,允许s1多用几张草稿纸,如果简单,写完一页就交卷。这样既提高正确率,又节省时间。

值得一提的是,s1的成功离不开大模型的开源生态。以其基础模型通义千问为例,1月29日,通义千问旗舰版模型Qwen2.5-Max对外发布,预训练数据超过20万亿tokens(词元),通义Qwen模型已成为全球主流开源大模型之一。

同时,DeepSeek依然坚持全面开源,短短数日内,国内外主流AI平台宣布接入,也为DeepSeek的未来发展奠定了良好基础。

Meta首席人工智能科学家杨立昆认为,DeepSeek的成功就是开源研究和开源技术优势的最好证明,“这是开源模型的胜利”。这句话,套用在s1的成功同样合适。

相关推荐

“AI教母”发布新模型,只花了50美元,效果为何堪比DeepSeek?
李飞飞团队50美元训练出DeepSeek R1?
DeepSeek大模型专家交流
DeepSeek惊艳全球,美国大模型两巨头:并不比我们先进
DeepSeek风暴席卷全球,AI走进县城日常生活还要多久?
DeepSeek什么来头,何以震动全球AI圈?
DeepSeek新模型大揭秘,为何它能震动全球AI圈
DeepSeek再发新模型
DeepSeek来了,企业级AI部署会更简单吗?
阿里、百度、腾讯官宣!上线DeepSeek大模型

网址: “AI教母”发布新模型,只花了50美元,效果为何堪比DeepSeek? http://www.xishuta.com/newsview132393.html

所属分类:行业热点

推荐科技快讯