首页 科技快讯 怎么理解Ilya说的“AI放缓了”

怎么理解Ilya说的“AI放缓了”

来源:晰数塔互联网快讯 时间:2024年11月13日 21:25

本文来自微信公众号:信息平权,作者:信息平权,题图来自:AI生成

梳理下时间线,The Information周日文章说Pre-Train模型的预训练“撞墙”了,昨天ilya接受路透采访,说了同样的话,原文如下:

The Information口碑参差不齐,但ilya也这么说,一石激起千层浪。

实际上预训练边际效果递减这事儿已经传了很久。7月份第一次传GPT-5训练不顺利,8月份开始流传“LLM语言模型预训练放缓,RL强化学习Post train优先级提高”,但前半句被当成“华人圈小作文”,觉得北美如火如荼,大家都在搞10万卡20万卡,预训练并没有停。

这期间,扎克伯格、Anthropic Dario、xAI都出来讲Scaling Law没有放缓。到9月o1出来,Sam Altman甚至提出预训练scaling+推理scaling,双发动机。 

到今天有结论了吗?个人觉得80%的可能Pre-Train预训练已经撞墙了,但并不是原理上,毕竟scaling law是个经验性定律,和摩尔定律一样,没到做出来你也不知道证伪与否,但:

1. 经济上,投入产出比的问题。假如你拿到10万卡,即20亿~30亿美金的预算,每个月的沉没成本是1亿美金,你会用在哪里?Pre-train、RL post train、inference,还是探索出其他新的scaling方法?

假如你在有限资源情况下, research上有新的发现,同样1亿美金/月的成本,能获得模型能力上更大边际提升,自然而然会降低pre-train的投入权重。就比如目前OpenAI在post-train上的算力分配已经超过了一半,这是个重要信号。

2. 工程实践上,难度太大。10万卡的互联就很难,何况20万卡、100万卡,crush多到爆炸……以及数据如果搞到几十T,多模态数据边际效用降低等等。

但这只是ilya说的前半句,后半句是:现在的关键,是找到在什么地方去scaling。什么意思?预训练显然是在scale参数+数据。而RL post train是在参数不显著增加的情况下,scale了更多高质量的reasoning数据。test-time compute是scale推理的次数。这可能就是ilya的“灵魂发问”,未来到底去scale什么因子?(显然不止是上面所说的这些)

我个人甚至怀疑现在还在鼓吹猛搞预训练的“领军人物”们,是在误导对手,将其往沟里带。但另一些人的发言,已经透露出了一些端倪,比如微软CEO Satya说的——预训练模型LLM已经“商品化/同质化”。也就是目前基于自回归训练出的LLM语言模型,依然只是个“原材料”“基座”,基于此再去实现更好的智能和应用,还有很多后续配方……

对算力的影响?

1. scale,本质上还是扩大算力。“大力出奇迹”依然是那根魔法棒,只是去“点”哪里的问题。因此算力还是离不开,只是把算力以什么方式、用在什么地方。

2. 超大集群真不一定需要,分布式集群也可以(老黄BG2亲口盖章)。但总量会越来越大。

3. 英伟达定义的Rack、超节点、superchip,依然需要。为什么?请参考之前文章《英伟达下一个“大杀器”》。

4. 训练上,GPU依然是最优选择。经过这件事,更加说明目前处于early stage早期阶段,算法本身远没有定型。auto-regressive机制下的transformer效率还有极大优化空间。CUDA的壁垒只会越来越高。

5. 推理上,GPU的壁垒,说实话我现在看不清了,已经来回摇摆过多次。包括端侧,因为搞不清楚未来端侧推理多少比例也会上云(所谓隐私那部分其实很小很小)。

对应用的影响?

我倾向于乐观。Ilya既然这么说,说明他的新公司SSI已经找到了方法、方向,不然创什么业啊。

而让我乐观的另一个原因,是我认识一位华人AI创业的朋友,之前一直在水下非常低调。但他们很早就All in RL(不是传统RL,也不是post train RL),大概1年前就告诉我“自回归这条路已经走到头了”,当时觉得也太激进了……到今天大家才回过神。但从这位朋友公司的进展来说,AI的发展,尤其是research根本没有放缓,而是看到了更多可能性。

因此总结来说,乐观一点,自回归不代表AI的全部,OpenAI也不代表AI的全部,老黄都说过LLM是英伟达多年押注涌现出的一个“application”罢了。为台积电节省了10亿美金的“计算光刻”、Palantir的AI产品AIP、Applovin的AXON,哪个是现在大火的LLM?都不是,但他们都是AI,且都在买GPU,都在scaling。因此pre train放缓不代表AI停滞了,已经停不下来了……

本文来自微信公众号:信息平权,作者:信息平权

相关推荐

怎么理解Ilya说的“AI放缓了”
GPT之父Ilya最新斯坦福访谈全文:AI意识,开源和OpenAI商业化,AI研究的未来
Altman不是“乔布斯”,Ilya才是!
Sam和Ilya的深层矛盾:有效加速主义 vs. 超级“爱”对齐
Ilya离开OpenAI内幕曝光
AI科学家能不能理解普通人对AI的需求,怎么理解?
独家对话Ilya Sutskever的灵魂八问,有关SSI的一切
Ilya Sutskever:OpenAI“叛变者”的恐惧与信念
Ilya官宣离职,OpenAI还是走散了
奥特曼回应一切:GPT-5、董事会宫斗、Ilya看到了什么

网址: 怎么理解Ilya说的“AI放缓了” http://www.xishuta.com/newsview128397.html

所属分类:行业热点

推荐科技快讯