CGC 2025特辑 | Torsten Hoefler:借助大型语言模型与推理语言模型进入计算时代

CGC 2025特辑 | Torsten Hoefler:借助大型语言模型与推理语言模型进入计算时代

2025-12-8

以下文章来源于微信公众号——全球计算联盟GCC

欢迎阅览GCC CompuWave 之「大咖观点」版块

2025全球计算大会上,GCC战略咨询委员会(SAC)委员、

欧洲科学院院士、苏黎世联邦理工学院教授

Torsten Hoefler作为重磅演讲嘉宾带来主题演讲

《借助语言学习模型与推理语言模型进入计算时代》

今天我要跟大家分享的内容是借助大型语言模型与推理语言模型进入计算时代。为了佐证这一观点,我想从人类历史早期谈起,人类从石器时代起步,随后进入青铜时代、铁器时代。类似的技术变革也发生在中世纪,随后便是文艺复兴与工业革命。工业革命末期出现了一个有趣的现象:人体体力的重要性大幅下降,即便身体虚弱的人,如今也能操控百万吨级的船舶、飞机或其他各类机械。此后,人类继续前行,先后进入原子时代与空间时代。不少人认为,我们正处于由现有数据驱动的数据时代。但我认为:我们已经超越了数据时代正处于计算时代

如今最具价值的公司正聚焦于计算设备的研发制造。OpenAI联合创始人兼首席执行官斯坦・奥特曼曾表示,早在一年多以前,OpenAI每天就会生成1000亿个tokens,这一数量是人类日常说话总量的1000倍。从某种意义上说,我们已经进入机器生成内容远超人类的阶段。许多人对此持负面态度,但我更愿意看到其中的积极面——我们可以让这些机器像人类一样相互“争论”、循环调用,进而打造出能够相互探讨、持续探索并发现新事物的思维机器。

我认为,计算能力已成为新的“石油”资源。好消息是这种“石油”几乎遍布全球。只要我们持续投入,全球各地都能从中受益。我们在瑞士借助这种“石油”打造了开放语言模型,中国也在利用它构建自己的语言模型。其中最具竞争力的成果之一,便是近期KIMI K2的发布——这无疑是一个极具里程碑意义的突破。

早在2019年,微软就首次承诺投入10亿美元用于大规模人工智能研发,这是大型企业最早就此发布的公开声明之一。随后,谷歌开始在Facebook上发布相关公告,特斯拉汽车公司也投身于人工智能领域。从GPU销量数据中便可看出:2023年,有30万台GPU独家供应给微软和Meta两家公司;2024年,仅微软一家就采购了40万台GPU。此外,还有几家中国公司跻身全球最大GPU市场的前列。可见,全球市场正发生着巨大变化,相关领域的投资规模也在不断扩大,预计将有800亿至5000亿美元的资金投入其中。

人们为什么在这个领域投入了这么多的资金?因为这个行业非常具有潜力,简单来说:AI本质上是一种相对简单的计算形式。你可以从网络上获取大量文本数据,通过参数化可计算模型进行处理。这一计算结构其实非常简洁,仅包含约12个操作符,任何学生都能掌握。其核心逻辑是:通过该结构预测下一个词的概率分布,我们明确被删除的词汇后,便可基于文本内容不断更新这一包含大量参数的计算结构,从而更精准地复现文本。这正是大型语言模型(LLMs)的神奇之处,也是当今人工智能领域发展的核心驱动力。请大家试想,即便如此简单的计算结构,只要在极端规模下运行,就能形成大型模型。例如DeepSeek的模型拥有约6710亿个参数,实时活跃用户达3700万人。

那么,我们如何才能让这些模型真正具备可行性并提升运行速度?我们的研究团队就此展开了探索,例如量化技术。量化技术的核心是对模型中的每一个参数(无论是万亿级、6000亿级还是其他数量级的参数)进行压缩。正如我们所知,高浮点8位格式、高浮点4格式等更小的数据类型,能够以更少的比特数承载相同的信息。这一技术至关重要,因为它能有效缩小模型尺寸。

此外,我们都了解“专家混合技术”——如今,不同专家的观点往往难以取舍,但“混合专家”本质上是一种稀疏化形式,其将稀疏性推向了极致:这类模型的稀疏度高达99%,即生成单个标记时,实际仅使用1%的参数。这是一项非常基础的技术,我们早在2019年就已展开相关研究,并取得了巨大成功。

最后,我们需要什么?要实现这一目标,就需要打造大型设备——大型超级计算机。这类超级计算机主要由网络定义,本质上是一组通过高效、可靠且低成本的智能网络联结起来的计算设备,类似于廉价可靠的小型笔记本电脑组成的网络。

以上就是我对如何将性能提升1000倍的简要概述,如果大家想了解更多详情,可以在YouTube查看相关的专题视频。

但如今,大型语言模型(LLMs)领域发生了什么变化?我们已基本从Transformer模型转向Burk模型,这一点想必很多人都有所了解。OpenAI从GPT-2模型迭代至GPT-3模型时,正式推出了相关产品,并宣称其已具备市场竞争力——GPT-3便是首个被广泛认可的产品,此后相关技术持续迭代。我将那一时期称为“模型尺寸缩放时代”,而如今我们已进入计算时代。尽管有人认为模型规模仍在持续扩大,但实际上,这种单纯的规模扩张已不再是主流。这一转变的关键节点,便是ChatGPT语言模型作为产品正式发布。

要实现大型语言模型(LLM)的商业化,往往需要投入数十亿美元打造万亿级参数的大型模型,其成本极高。因此,市场竞争愈发激烈,DeepSeek等产品应运而生,随后便进入了“数据扩展时代”。在这一时代,模型规模不再是首要考量因素,核心竞争力转而依赖更多数据以及通过模型处理更多标记——这无疑是一场颠覆性的变革。

但如今,更重要的变革已然发生——这也印证了我此前的观点:计算时代已然来临,计算能力就是新的石油”。而这一变革的核心背景是:我们本质上已面临数据枯竭的问题。OpenAI联合创始人之一、著名科学家伊利亚・西斯科娃曾表示:“正如我们所知,这种预训练模式终将走向终结——因为我们只有一个互联网,而如今机器自动生成的文本数量,已然超过了人类自身的文本生成能力”,这与我此前的观点不谋而合。我的朋友、计算机领域大奖得主大卫・西尔弗曾将人类数据比作人工智能的“化石燃料”。在很大程度上,人类如今的发展形态离不开化石燃料,但如今我们正面临化石燃料枯竭的问题,因此,人工智能领域也需要一种新的“燃料”。

目前,GPT-4或GPT-3.5等语言模型在大多数任务中的表现已优于普通人类。但这些模型存在一个核心问题:这些知识类任务本质上只是“知识的调用”,模型本身并不具备推理能力——它们不知道如何进行逻辑推理。但我们发现了一个有趣的现象:若更换模型的基本输入输出方式,例如让模型完成数字排序任务——这类数字序列在网络上并无现成答案,但如果告知模型数字排序的方法,再让其应用于目标序列,就会出现意想不到的结果。这就是所谓的“思维链”技术。通过思维链,模型能够理解自身的行动逻辑及理由。这一思路已进一步延伸为“思想树”与“思想图”技术,我的研究团队也为这些技术的发展作出了相应贡献。

为了说明这一点在实践中如何运作,我想回到2016年——当时,围棋世界冠军丽莎・多尔被一台机器击败。围棋的规则极其简单,甚至可以向小孩子解释清楚,但要玩好这项游戏却难度极高,需要大量的思考与复杂的策略。这位18次斩获世界冠军的传奇选手,最终不敌机器——这意味着,至少在围棋这一领域,机器的推理能力或许已超越人类。这台机器之所以能做到这一点,核心是应用了强化学习技术。其运作逻辑如下:首先,我们拥有棋盘的初始状态;随后,运行所谓的“策略函数”,得到一系列可能的行动方案,进而进入新的状态;之后,重复该操作n次,采样得到n个不同的可能新状态;接着,调用“值函数”,该函数会给出从每个新状态获胜的概率;最后,选取获胜概率最高的行动方案,并不断重复这一过程,必要时进行回溯。正是通过这一简单算法,机器最终成为了顶尖的围棋选手。而机器的策略函数与值函数,本质上只是一个深度神经网络——这便是技术突破的核心。这项技术最终斩获了多项创新大奖,甚至促成了新奖项的设立,其中就包括图灵奖。

但试想,若将这一理念应用于文本领域:语言模型可以像这样“自言自语”,完成数字排序等任务。此时,模型关注的不再是“新成立的国家”这类外部信息,而是自身发出的指令(例如“查找快速排序方法”),并通过类似“蓝色代表好主意、红色代表坏主意”的逻辑进行判断。这就像模型在进行自我互动——只不过不再是棋盘上的对弈,而是文字与思想层面的“游戏”。

现在不妨想象一下这背后的可能性:语言模型本身已是顶尖的“资料库”,若让它们循环运行、进行优化推理,便能实现“超人级推理”。但核心是让这些模型能够“自相争论”——我们将击败围棋等顶尖人类选手的“超人策略”,与语言模型自身具备的“超量人类知识”相结合。我们知道,大型语言模型(LLMs)在知识储备上可能比在座任何人都更丰富,甚至超过我们所有人共同作答的水平——这无疑将彻底改变行业格局。

这标志着“推理扩展时代”的开启,而这意味着什么?核心是我们的发展实际上受限于计算能力——我们需要打造更强大的计算设备,以支持模型完成复杂计算,实现“自相争论”与推理能力的提升。

这方面的核心原则我之前已经提到过,即稀疏化与量化。我们的目标是:无需逐一处理所有参数,就像人类思考时不会激活大脑中所有神经元一样——实际上,人类思考时仅会激活约20%的神经元。如果激活比例过高(例如25%),就可能引发癫痫等问题,导致人体失控倒地,这显然并非我们希望看到的。

量化技术则是另一种核心方法,其目的是进一步减少参数数量。这就像人类大脑的运作原理:为什么大脑能在42位的精度下运行?因为人脑中的每个神经元实际上只能区分约24个电压等级,这大致相当于42位的精度。

那么,我们该如何构建下一代系统?如何制造兼具推理能力与知识储备的机器?核心是需要更具性价比的计算机。例如,微软的Maia 100芯片以及华为的昇腾芯片,均遵循这一核心原则。正如我们此前所讨论的,这些芯片采用了更优质的数据类型,具备高浮点稀疏性——这种特性既可以通过“混合专家”技术实现,也可以通过其他稀疏化形式达成,并能在相关设备上有效落地。

但芯片只是基础,我们还需要更具性价比的系统,并将这些芯片集成到更大规模的系统中。要实现这一目标,我们需要构建高效的网络,而网络交换机是核心组件。在此,我想提及一项对我而言至关重要的标准——超高速以太网,这一标准由相关标准组织推动制定。超高速以太网具备高带宽、高可靠性、低成本及网络收敛等核心优势。借助这一技术,每个数据中心都将能够成为超级计算机——因为要解决上述复杂计算任务,网络必须具备极强的性能。

当前的以太网技术已不足以支撑这些计算任务,其性能仍有较大提升空间。要满足下一代系统的需求,必须对以太网技术进行升级。正因如此,许多中国企业也积极参与其中。由于超高速以太网技术相当复杂,我在本次演讲中没有足够时间详细阐述,但请相信,这是未来网络技术的核心方向,各方就此展开合作将带来巨大价值。最近,计算机科学领域的最高奖项已颁发给以太网技术的发明者。

本次演讲未能展开所有细节,如果大家需要更详细的展望或完整的技术解读,可在YouTube上查看相关内容,其中详细介绍了计算技术的发展历程以及千倍性能提升的实现原理。

我的分享到此结束,感谢大家!