首页科技快讯反转，Claude 3.5超大杯没有训练失败

反转，Claude 3.5超大杯没有训练失败

来源：晰数塔互联网快讯时间：2024年12月13日 17:30

传闻反转了，Claude 3.5 Opus没有训练失败。

只是Anthropic训练好了，暗中压住不公开。

semianalysis分析师爆料，Claude 3.5超大杯被藏起来，只用于内部数据合成以及强化学习奖励建模。

Claude 3.5 Sonnet就是由此训练而来的。

使用这种方法，推理成本没有明显提升，但是模型性能更好了。

这么好用的模型，为啥不发布？

不划算。

semianalysis分析，相较于直接发布，Anthropic更倾向于用最好的模型来做内部训练，发布Claude 3.5 Sonnet就够了。

这多少有些让人不敢相信。

但是文章作者之一Dylan Patel也曾是最早揭秘GPT-4架构的人。

除此之外，文章还分析了最新发布的o1 Pro、神秘Orion的架构以及这些先进模型中蕴藏的新规律。

比如它还指出，搜索是Scaling的另一维度，o1没有利用这个维度，但是o1 Pro用了。

网友：它暗示了o1和o1 Pro之间的区别，这也是之前没有被披露过的。

新旧范式交迭，大模型还在加速

总体来看，semianalysis的最新文章分析了当前大模型开发在算力、数据、算法上面临的挑战与现状。

核心观点简单粗暴，总结就是：新范式还在不断涌现，AI进程没有减速。

文章开篇即点明，Scaling law依旧有效。

尽管有诸多声音认为，随着新模型在基准测试上的提升不够明显、现有训练数据几乎用尽，以及摩尔定律放缓，大模型的Scaling Law要失效了。

但是顶尖AI实验室、计算公司还在加速建设数据中心，并在底层硬件上砸了更多钱。

比如AWS斥巨资自研Trainium2芯片，花费65亿美元为Anthropic准备40万块芯片。

Meta也计划在2026年建成耗电功率200万千瓦的数据中心。

很明显，最能深刻影响AI进程的人们，依旧相信Scaling Law。

为什么呢？

因为新范式在不断形成，并且有效。这使得AI开发还在继续加速。

首先，在底层计算硬件上，摩尔定律的确在放缓，但是英伟达正在引领新的计算定律。

8年时间，英伟达的AI芯片计算性能已经提升了1000倍。

同时，通过芯片内部和芯片之间的并行计算，以及构建更大规模的高带宽网络域，可以使得芯片更好地在网络集群内协同工作，特别是在推理方面。

其次，在数据方面也出现了新的范式。

已有公开数据消耗殆尽后，合成数据提供了新的解决途径。

比如用GPT-4合成数据训练其他模型是很多实验团队都在使用的技术方案。

而且模型越好，合成数据质量就越高。

也就是在这里，Claude 3.5 Opus不发布的内幕被曝光了。

它承担了为Claude 3.5 Sonnet合成训练数据、替代人类反馈的工作。

事实证明，合成数据越多，模型就越好。更好的模型能提供更好的合成数据，也能提供更好的偏好反馈，这能推动人类开发出更好的模型。

具体来看，semianalysisi还举了更多使用综合数据的例子。

包括拒绝采样、模式判断、长上下文数据集几种情况。

比如Meta将Python代码翻译成PHP，并通过语法解析和执行来确保数据质量，将这些额外的数据输入SFT数据集，这也解释了为何缺少公共的PHP代码。

比如Meta还使用Llama 3作为拒绝采样器，判断伪代码，并给代码进行评级。一些时候，拒绝抽样和模式判断一起使用。这种方式的成本更低，不过很难实现完全自动化。

在所有拒绝抽样方法中，“判官”模型越好，得到的数据集质量就越高。

这种模式Meta在今年刚刚开始用，而OpenAI、Anthropic已经用了一两年。

在长上下文方面，人类很难提供高质量的注释，AI处理就成为一种更有效的方法。

然后在RLHF方面，专门收集大量的偏好数据难且贵。

对于Llama 3，DPO（直接偏好优化）比PPO（最近策略优化）更有效且稳定，使用的计算也少。但是使用DPO就意味着偏好数据集是非常关键的。

OpenAI等大型公司想到的一种办法是从用户侧收集，有时ChatGPT会给出2个回答并要求用户选出更喜欢的一个，因此免费收集了很多反馈。

还有一种新的范式是让AI替人类进行反馈——RLAIF。

它主要分为两个阶段。第一阶段，模型先根据人类编写的标准对自己的输出进行修改，然后创建出一个包含“修订-提示对”的数据集，再使用这些数据集通过SFT进行微调。

第二阶段类似于RLHF，但是这一步完全没有人类偏好数据。

这种方法最值得关注的一点是，它可以在许多不同的领域得到扩展。

最后，值得重点关注的一个新范式是通过搜索来扩展推理计算。

文章中表明，搜索是扩展的另一个维度。OpenAI o1没有利用这个维度，但是o1 Pro用了。

o1在测试时阶段不评估多条推理路径，也不进行任何搜索。

Self-Consistency / Majority Vote就是一种搜索方法。在这种方法中，只需在模型中多次运行提示词，产生多个响应，根据给定的样本数量，从响应中选出出现频率最高的作为正确答案。

除此之外，文章还进一步分析了为什么说OpenAI的Orion训练失败也是不准确的。

感兴趣的读者可以阅读原文。

本文来自微信公众号：量子位，作者：明敏

反转，Claude 3.5超大杯没有训练失败

推荐科技快讯

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

人类唯一的出路：变成人工智能（三）

饿了么口碑：今年计划招5000名员工、增80万骑手

盖茨力劝美国用核技术解决气候变化愿掏数十亿腰包

反转，Claude 3.5超大杯没有训练失败

推荐科技快讯

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

人类唯一的出路：变成人工智能（三）

饿了么口碑：今年计划招5000名员工、增80万骑手

盖茨力劝美国用核技术解决气候变化 愿掏数十亿腰包

盖茨力劝美国用核技术解决气候变化愿掏数十亿腰包