首页 科技快讯 在DeepSeek非来不可的开发者大会上,大模型三大关键,全讲清楚了……

在DeepSeek非来不可的开发者大会上,大模型三大关键,全讲清楚了……

来源:晰数塔互联网快讯 时间:2025年02月23日 09:22

转自:上观新闻

2月22日开幕的2025全球开发者先锋大会(GDC),作为面向全球开发者的“社区的社区”,是科研及产业领域开发者无法抗拒的盛会。据主办方确认,现已火遍地球的DeepSeek,此次也以“闭门会议”方式低调参会。GDC无疑成为观察大模型最新战况及未来走向的绝佳窗口,为此记者与现身GDC的各模型厂商及专家聊了聊,为业界最关注的三大热议话题寻找答案。

第一,大模型“撞墙”了没?去年以来,外界始终存在对大模型技术和性能天花板的疑虑。但事实上,业内的普遍感受却是:大模型迭代速度超快。犹记一年前,OpenAI的视频生成模型Sora横空出世,致使上海大模型创业公司如阶跃星辰、MiniMax等“压力山大”,因为他们不断被追问,中国、上海何时才能有自己的Sora?一年后的今天,剧情反转。若查看最新排名,MiniMax旗下海螺AI目前全球月访问量排名第一,Sora只能排第三。

事实上,去年以来,大模型几乎每三个月就能引发“行业一惊”。如去年OpenAI发布的GPT-4o,已能感知和响应用户情绪,允许用户随时打断它。还有OpenAI的o系列模型,在慢思考和推理能力上表现强悍。未来,围绕算法创新、多模态融合等,大模型有望再有数倍量级的能力提升,性能跃升空间依旧巨大。

第二,中美大模型之间的技术差距还在持续扩大吗?这个春节,DeepSeek当惊世界殊,其“烧脑改算法”,选择混合专家模型(MoE)架构,通过动态冗余策略,将计算成本降至传统模型的十分之一。另外,DeepSeek在模型蒸馏、算力调度方面也很有自己的一套,让全球看到了中国的开源力量和创新打法。可以说,中美之间的模型竞争依旧激烈,但中国模型的技术实力已经让美国不敢小瞧了。

第三,大模型还能从过去的经验中找答案吗?短短两年,大模型研发框架敏捷迭代——一开始的底层架构是稠密模型加Transformer,但而今,Transformer几被弃用,且模型公司多选择稀疏激活、更为经济有效的MoE模式。与此同时,DeepSeek带头,不再迷信经验和专家,而是大量聘用年轻研究员并充分授权,要求就一条:研发人员必须对技术变革抱有极致热情。大模型技术的颠覆性变化,屡屡刷新业界认知。这也意味着,大厂或退回到与创业公司相同的起跑线,组建起成规模的高效研发团队,成为大模型制胜唯一路径。

原标题:在DeepSeek非来不可的开发者大会上,大模型三大关键,全讲清楚了……

相关推荐

在DeepSeek非来不可的开发者大会上,大模型三大关键,全讲清楚了……
多个中国平台,集中上线DeepSeek大模型
阿里、百度、腾讯官宣!上线DeepSeek大模型
大模型专家解读Deepseek
“兆言”DeepSeek大模型一体机上市
DeepSeek大模型专家交流
华为盘古大模型将于 7 月 7 日在开发者大会上公布重大升级
月之暗面被曝大砍投放预算,DeepSeek倒逼大模型公司资源再分配
DeepSeek一骑绝尘,“豆包们”怎么办?
一天适配!天数智芯联合Gitee AI正式上线DeepSeek R1模型服务

网址: 在DeepSeek非来不可的开发者大会上,大模型三大关键,全讲清楚了…… http://www.xishuta.com/newsview132993.html

所属分类:行业热点

推荐科技快讯