首页科技快讯英伟达最大的风险，在很少人关注的角落里

英伟达最大的风险，在很少人关注的角落里

来源：晰数塔互联网快讯时间：2023年09月05日 12:26

今年的英伟达确实“猛”，不遗余力拼算力似乎已经成了科技巨头们的共识，部分原因在于，不少大模型都以对算力需求较高的Transformer为架构。而如果在不断迭代的过程中，Transformer逐步被对算力需求少的架构取代，这是否也将成为英伟达的“潜在风险”？

投资了OpenAI劲敌Cohere的著名风险投资家、Radical Ventures合伙人Rob Toews，在9月3日发布的专栏文章指出，Transformer在训练时支持并行化，与GPU的“爆火”时间点吻合。GPU拥有更多流处理器，适合对密集数据进行并行处理和并发计算，非常适合且支持基于Transformer的计算工作流负载。

毫无疑问，Transformer的架构非常强大，彻底改变了AI界，但缺点也明显，当文章长度变长，计算复杂度就变得非常高。同时，随着模型规模不断扩大，所需计算量呈指数级增加，这两点都让Transformer的算力需求激增。

Toews指出，为了弥补Transformer存在的问题，包括Hyena、Monarch Mixer、BiGS、MEGA等提出了用Subquadratic方法来降低运算复杂度，减少算力需求。

Toews直言，尽管这些架构距离挑战Transformer的“王座”仍有较大差距，但不可否认的是，AI发展过程中新鲜的事物接连出现，在不断更新换代的过程中，或许没有什么是永远屹立不倒的。

当算力需求激增之时，从某种程度上说，谁手握英伟达GPU，谁就掌握了AI时代最硬的“硬通货”。而如果在未来Transformer被对算力需求不高的架构取代，那对最大“卖铲人”英伟达来说可能不是一件好事。

Transformer的庞大计算成本

2017年6月12日，《Attention is All You Need》论文横空出世，让大模型领域变天的Transformer架构出现了。截至9月4日，Transformer诞生6年，而这篇论文被引用高达87345次。

分析指出，基于Transformer不断扩展的大模型们，都是以处理性能和功耗方面的高昂成本为代价。因此，虽然人工智能的潜力可能是无限的，但物理和成本却是有限的。

为什么Transformer对算力的要求如此之高？Toews解释称，主要有以下两个原因：1. 注意力（attention）机制的计算复杂度；2. 越发庞大的模型规模。

Transformer的基本原理是使用自注意力机制来捕获序列数据中的依赖关系，无论它们的距离有多远。

注意力机制需要将序列中每个词与其他所有词进行配对比较，这导致运算量随序列长度的平方增长，即计算复杂度为O(n2)。这种平方级复杂度使得随着文本长度增加，所需计算成本急剧上升。

与此同时，Transformer架构可以更好地扩展大模型，所以研究者不断基于Transformer训练更大规模的模型。目前主流的语言模型参数量达到了数百亿级甚至万亿级，需要大量算力支持。随着模型规模的扩大，所需算力呈指数级上涨。

谷歌母公司Alphabet首席财务官Ruth Porat在财报电话会上表示，由于需要投资AI基础设施，资本支出将比去年的创纪录水平“略高”。

微软最新报告显示，该公司季度资本支出超出预期，首席财务官Amy Hood称原因为加大AI基础设施建设。

微软在今年年初又向OpenAI砸了100亿美元，为了支撑起大语言模型训练所需的庞大计算资源费用。成立仅18个月的初创公司Inflection也融资超过10亿美元用于构建GPU集群，以训练其大语言模型。

英伟达GPU在市场的“哄抢”中陷入产能瓶颈。最新的H100芯片早已全部卖空，现在下单要等2024年第一季度甚至第二季度才能排上队。

Toews指出，上述种种都不难看出，基于Transformer的模型对计算资源的需求之大，以至于当前的人工智能热潮引发了全球GPU供应短缺，硬件制造商无法跟上激增的需求。

Transformer面临的难题

同时，Toews指出，Transformer处理的句子长度受限，已有的方法大多使用截断的方式，这会导致信息损失，因此如何实现长文本的预训练是目前的一大难题。

而这场AI军备竞赛注定还将持续下去，如果OpenAI、Anthropic或任何其他公司继续使用Transformer架构，那么它们模型的文本序列长度会受限。

Toews指出，人们已经进行了各种尝试更新Transformer架构，仍然使用注意力机制，但能够更好地处理长序列。然而，这些改进后的Transformer架构（如Longformer、Reformer、Performer、Linformer和Big Bird）通常会牺牲部分性能，因此未能获得采用。

Toews强调，没有一样事物会是完美的，历史的发展也不会停下脚步，尽管Transformer现在占据绝对的优势地位，但它也并非没有缺点，而这些缺点为新的架构打开了大门。

“王位”挑战者出现了？

Toews认为，现在寻找可以替代"Transformer"的架构成了最有潜力的领域，而其中的一个研究方向是用一种新的函数替代注意力机制。包括Hyena、Monarch Mixer、BiGS、MEGA等提出了用Subquadratic方法来降低运算复杂度，减少算力需求。

Toews强调，斯坦福和Mila的研究人员提出了一种名为Hyena的新架构，具有代替Transformer的潜力，它是一种无注意力、卷积架构，可以匹配注意力模型的质量，同时可以降低计算成本。在二次多项式NLP任务上表现出色：

据称，Hyena可达到与GPT-4同等的准确性，但使用的算力比后者减少了100倍。这是第一个能够在总FLOPS减少20%的情况下与GPT质量相匹配的无注意力架构，具有成为图像分类的通用深度学习运算符的潜力。

Toews表示，需要注意的是，最初的Hyena研究是在相对小的规模下进行的。最大的Hyena模型具有13亿个参数，而GPT-3有1750亿个参数，GPT-4据说达到1.8万亿个参数。因此针对Hyena架构的一个关键测试将是，在将其扩展到当前Transformer规模的情况下，它是否能继续表现出强大的性能和效率提升。

Toews认为，液态神经网络是另一个具有取代“Transformer”潜力的架构。麻省理工学院的两名研究人员从微小的秀丽隐杆线虫（Caenorhabditis elegans）中汲取灵感，创造了所谓的 “液态神经网络” （liquid neural networks）。

据称，液态神经网络不仅速度更快，而且异常稳定，这意味着系统可以处理大量的输入而不至于失控。

Toews认为，这种较小的架构意味着液态神经网络比Transformer更加透明，且更易于人类理解：

毕竟，对于人类来说，更容易解释具有253个连接的网络发生了什么，而不是拥有1750亿个连接的网络。

当架构不断改进，逐渐减少了对算力的依赖，是否也意味着会对未来英伟达的营收产生影响？

本文来自微信公众号：华尔街见闻（ID：wallstreetcn），作者：葛佳明