河套 IT TALK 76：（原创）解读老黄与 Ilya 的炉边谈话系列之五——将要拥抱多模态的 ChatGPT（万字长文）

一个月前，就在GPT 4发布的第二天，同时也是英伟达（NVIDIA）线上大会的契机，英伟达的创始人兼CEO黄仁勋（”Jensen” Huang）与OpenAI的联合创始人兼首席科学家伊尔亚-苏茨克维（Ilya Sutskever ）展开了一次信息量巨大的长达一个小时的“炉边谈话”（Fireside Chats）。期间谈到了从伊尔亚-苏茨克维早期介入神经网络、深度学习，基于压缩的无监督学习、强化学习、GPT的发展路径，以及对未来的展望。相信很多人都已经看过了这次谈话节目。我相信，因为其中掺杂的各种专业术语和未经展开的背景，使得无专业背景的同仁很难彻底消化理解他们谈话的内容。本系列尝试将他们完整的对话进行深度地解读，以便大家更好地理解ChatGPT到底给我们带来了什么样的变革。今天，就是这个系列的第五篇：将要拥抱多模态的ChatGPT。

EDG生物计算机：用人类大脑细胞开发超越电子计算机的技术

对话译文（05）：

黄仁勋：多模态 GPT-4 具备从文本和图像中学习，并对文本和图像输入做出响应的能力。首先，多模态学习的基础是Transformer，它使得我们可以从多个模态中学习，例如把文本和图像 token 化。在此基础上，它还帮助我们理解多模态是如何增强对世界的认知。我的理解是，除了文本本身外，当你在训练多模态模型时，甚至仅仅使用文本提示词时，文本提示词本身就可以提升文本理解。从基础上来看，多模态为什么如此重要？重大突破是什么，以及由此产生的特征差异是什么？

Ilya Sutskever：有两个维度可以解释多模态学习的重要性，或者说是两个原因让它变得有趣。第一个原因有点谦虚，多模态是有用的，对于神经网络来说看到多种形式的数据是有帮助的，特别是视觉数据。因为世界是非常视觉化的，人类是非常视觉化的动物。人类大脑皮层的三分之一都用于视觉，因此如果没有视觉，尽管我们的神经网络的效用仍然相当可观，但效用可能不如想象的那么大。这是一个非常简单的效用性的论点。很显然，GPT-4 可以“看”得很好。

第二个原因是，除了从文本学习之外，我们还可以从图像中学习这个世界的知识。这也是一个有力的论点，尽管它像看上去不是那么明确。我给你举个例子，或者说在举例之前，我要给出一个宽泛的说法，作为人类，我们在整个生命中只能听到大约10亿个词。

黄仁勋：只有10亿个词？

Ilya Sutskever：是的，只有10亿个词。

黄仁勋：真令人惊讶，这不是很多。

Ilya Sutskever：是的，不是很多。

黄仁勋：它包不包括我脑海里的词？

Ilya Sutskever：那我们权且说20亿个词好啦，你懂我的意思吧。你知道，因为10亿秒等于30年。所以你可以看到，我们每秒钟只能看到几个词，并且我们有一半的时间都在睡觉。我们在一生中只能获得几十亿个词。因此，对我们来说，获得尽可能多的信息来源变得非常重要，我们从视觉中学到的东西要多得多。

对我们的神经网络来说，同样的论点也是适用的。神经网络可以从相当多的词中学习，原本很难从几十亿词的文本中认知世界，可能会从数万亿词中变得更容易。举个例子，比如颜色，人们需要看到颜色才能理解颜色。但是神经网络在“一生中”从没有“看”过一张照片，如果你问它们哪些颜色彼此更相似，它知道红色比蓝色更接近橙色，它也知道蓝色比黄色更接近紫色。

这是怎么实现的？一个答案是这个世界的信息，甚至是视觉的信息会慢慢通过文本传播出去。但是它非常缓慢，不是很快速。所以当你有很多文本时，你仍然可以学习到很多东西。当然，当你加入视觉信息，并从视觉中学习知识，你就会学到额外的知识，这些知识是无法通过文本获得的。

但我不会说，这是一个二元的关系，有些东西无法从文本中学习到。我认为这更像是一种汇率，特别是当你想学习的时候，如果你像一个人一样从10亿个词或1亿个词中学习，那么有其他信息来源会变得重要得多。

黄仁勋：是的，你可以从图像中学习。是不是意味着，如果我们也想了解世界的结构，就像我的手臂连接着我的肩膀，再连接我的手肘就能移动，这个世界的动画，这个世界的物理，如果我也想了解这一点，我能只看视频就学会吗？

Ilya Sutskever：是的。

黄仁勋：如果我想扩展所有这些，例如，如果有人说“great”的意思，“great”可以是“great（太好了）”，“great”也可以是“great（还好）”。你知道，一个是兴奋的，一个是讽刺的。像这样的词还有很多，比如“That’s sick”，指的是“I’m sick（我生病了）”，或者“I’m sick（我恶心了）”。根据人们的语气不同，含义也不同。那么，音频对于模型学习也会有帮助吗？我们会好好利用它吗？

Ilya Sutskever：是的，我认为肯定是这样。那么关于音频，我们能说些什么呢？它很有用，它是一个额外的信息来源，可能不如视频图片那样重要。但是，这种情况下还是有必要的。音频的实用性，无论是在识别方面还是在生成方面。

黄仁勋：在我看到的测试中，最有趣的是你们发布的数据，GPT-3在哪些测试中表现更好？GPT-4 在哪些测试中表现更好？你认为多模态在这些测试中起了多少作用？

Ilya Sutskever：直观的说，每当有一个测试需要理解问题的图表时，比如说在某些数学竞赛中，比如高中生的数学竞赛AMC 12，很多问题可能都有图表。因此，GPT-3.5在测试中表现很差。GPT-4 仅使用文本时的准确率可能只有2%到20%，但是当加入视觉时，它的成功率跃升至40%。因此，视觉确实做了很多工作。视觉非常出色，我认为能够进行视觉推理和视觉交流，我们也将变得非常强大，非常棒。

从我们对世界中仅仅几个事物的了解，发展到你可以了解整个世界，然后你可以把这个世界做视觉化的推理，视觉化的沟通。现在是在哪里，未来又在哪里？也许在某个未来版本中，如果你问神经网络“嘿，给我解释一下这个”，它将不仅仅产生四个段落，而是像一个小图表一样，清楚地传达给你需要知道的信息。

智愿君：让我们继续解读老黄和Ilya炉边谈话的第五段对话，这一段还蛮聚焦的，就谈了一个话题——多模态。上回，我们谈到了ChatGPT本质上还是围绕着文本展开的一个聊天机器人，尽管GPT-4有图形识别能力，但是还没有打开。但以上绝非是OpenAI满意的现状，今天我们就来聊聊多模态。

多模态其实是信息沟通通道的概念

今天的对话中一开始老黄就谈到了多模态。很多人可能第一个问题就是：到底什么是多模态交互呢？

人和一个智能系统交互的时候，存在双方相互理解的过程，也就是双方都通过各种通道去表达，然后也都通过各种通道去分析对方的意图。多模态是站在智能系统一方来表达，它更多强调的是智能系统通过多个通道去捕获人和环境的信息，或者通过多个通道去呈现信息。

从多个通道呈现信息并非是个新鲜概念，比如我们的电影就是同时有画面和声音的多通道呈现的。而今天聊的多模态重点说的是多模态交互的另一个方面：智能系统如何从更多个通道获取用户的意图。

我们来做一下类比，例如计算机视觉就是通过摄像头模拟人的视觉，从而帮助智能系统来感知世界。但这不是简单的模拟，机器视觉有其独特的、并且还在不断高速演进中的技术优势。比如在分辨率、景深、可见光和非可见光光谱范围、多自由度视觉捕获能力等方面，以及AI和大数据加持的图像识别、海量摄像头数据分析及挖掘能力上，都会让计算机视觉表现出惊人的力量和生命力。

我下面列出了几种类似的感知觉技术优势和演进方向的表格，你可以对照着感受一下。

因为智能系统的演进速度非常快，技术的能力边界也在不断提升，很多已经远远超过人类。所以才会有上述老黄和Ilya谈话过程中，Ilya说的“GPT-4 可以“看”得很好”。

需要被刮目相看的机器视觉

视觉是如此被重视，是因为人类对整个世界的认知，也绝大多数都是通过视觉来认知的。

从生理学上来讲，人眼有 700 万视锥细胞和 1亿2000万视杆细胞。视锥细胞帮助我们看到颜色，视杆细胞帮助我们分辨明暗。我们眼睛可以分辨约一千万种颜色（360到830纳米可见光波长范围内）。在大脑本身，致力于视觉处理的神经元数以亿计，约占大脑皮层的 30%，而触觉神经元占 8%，听觉神经元仅占 3%。将信号从视网膜传送到大脑的两条视神经中的每一条都由一百万条纤维组成；每条听觉神经仅携带 30,000 个。

实验心理学家赤瑞特拉（Treicher）通过大量的实验证实：人类获取的信息83%来自视觉，11%来自听觉，这两个加起来就有94%。还有3.5%来自嗅觉，1.5%来自触觉，1%来自味觉。而且他还做过另外一个实验，就是关于知识保持即记忆持久性的实验。结果是：人们一般能记住自己阅读内容的10%，自己听到内容的20%，通过视觉和交流实践获得的记忆则高达80%。我们的眼睛看到的还会影响我们听到的，这就是所谓的“麦格克效应”。视觉动物人类这种对视觉的偏爱，和依赖使得“一种视觉在场的形而上学，一种可称为‘视觉中心主义’（ocularcentrism）的传统”在人类文化的长河里顺理成章地形成了。

但遗憾的是，机器视觉的感知能力和处理能力，一直发展缓慢，始终和人的视觉保持较远的差距。但随着深度学习和神经网络等计算机算法的改进，以及以老黄的Nvidia为代表的GPU硬件能力的提升，使得机器视觉出现了革命性的进步。并以日新月异的速度，给我们带来惊喜。近些年机器视觉的进步，计算机图形处理技术的突飞猛击，可以从每年举行的ACM SIGGTRAPH的热度，以及收获的“喔”的数量上感知到在计算机视觉感知领域的前沿科技对时代的影响。

真正彻底改变这个行业的是2014年6月，当时在谷歌大脑（Google Brain）的Ian Goodfellow及其同事设计的一个机器学习框架。生成对抗网络一般由一个生成器（生成网络），和一个判别器（判别网络）两个神经网络组成。生成器的作用是，通过学习训练集数据的特征，在判别器的指导下，将随机噪声分布尽量拟合为训练数据的真实分布，从而生成具有训练集特征的相似数据。而判别器则负责区分输入的数据是真实的还是生成器生成的假数据，并反馈给生成器。两个网络交替训练，能力同步提高，以零和博弈的形式相互竞争，直到生成网络生成的数据能够以假乱真，并与与判别网络的能力达到一定均衡。

第二年，一个来自于自非平衡态热力学的扩散模型（Diffusion Model），也被用在图像处理领域，获得了非常好的效果。扩散模型是一种基于随机过程的模型，它可以通过将噪声向量逐步“扩散”到图像像素上，从而生成高质量的图像。这种模型的一个关键优势是，它可以通过自适应地选择扩散步骤的数量来控制生成图像的细节级别。此外，扩散模型还可以用来生成高分辨率的图像，而不像其他生成模型需要大量的训练数据和计算资源。扩散模型可以应用于各种任务，如图像去噪、图像修复、超分辨率成像、图像生成等等。例如，一个图像生成模型，经过对自然图像的扩散过程的反转训练之后，可从一张完全随机的噪声图像开始逐步生成新的自然图像。

在文本到图像生成中，这两种模型可以配合使用。Diffusion Model可以用来生成高质量的图像，而GANs则可以用来提高图像的真实性和可信度。具体来说，Diffusion Model生成的图像可以被作为GANs的输入，然后GANs可以通过学习这些图像的特征来生成更加逼真的图像。这种方法可以有效地减少Diffusion Model中可能存在的一些缺陷，并产生更加自然和逼真的图像。

也正是在这种大背景下，OpenAI才会首次推出的给大众体验的产品才不是ChatGPT，而是DALL-E。这是首批引起公众广泛关注的文本到图像模型之一，现在，我们体验对是能够生成更复杂和逼真的图像的后继模型 DALL-E 2。如今，关于Text-to-Image的图像生成器，已经遍地开花，除了DALL-E之外，还有Midjourney、Stable Diffusion、Jasper Art、Starry AI、Dream by Wombo、Nightcafe、BigSleep、Artbreeder、Photosonic、Craiyon等等一系列眼花缭乱的图像生成器，而且效果都不差。

相信，正是这些原因，老黄和Ilya在讨论视觉信息的时候，才会如此兴奋吧。

但是硬币总有两面，我们也无法忽视因为这两个技术的采用，面临的新的挑战：1. 生成图片的数字版权；2. 运用此能力的深伪技术。我们恰巧有两篇之前的文章覆盖了这两个话题，有兴趣的同仁，可以点击链接去看一下：

《HIT 11: AI生成的作品著作权归属探讨》

《河套IT TALK——TALK43：（原创）合成媒体的达摩克利斯之剑——深伪技术》

数字世界到底有多少可供大模型学习的信息？

在今天上面分享的这段对话中，有关一个人一生获取的文字信息为10亿个词，这个话题Ilya和老黄还聊了不少内容。这段内容其实也会让我们去思考，我们一生中接触这么多字，那么互联网上的信息有多少呢？

根据国际数据公司IDC的估计，截至2020年，全球数字宇宙的大小为44 Zettabytes（其中1 Zettabyte等于10亿 Terabytes），其中文本、图像和视频等非结构化数据占据了绝大部分。具体来说，据IDC估计，非结构化数据占据数字宇宙的80%以上，其中视频数据占比最高，约为60%。据统计，截至2020年，全球每天产生的文本数据量约为50万亿字节，这相当于每天产生50亿部普通手机的存储容量；而每天上传到YouTube的视频数据量约为500小时，相当于每分钟上传约300小时的视频。

这也映射了之前说的，目前世界上大部分信息都是采用视频和图像来保存的。目前GPT-4等大模型，学习到的文本数据还是有限的。关于GPT-4学了多大当量的数据并不清楚，但是GPT-3学了45TB的文本数据。主要来源于：

Common Crawl：提供了包含超过50亿份网页数据的免费数据库。有超过7年的网络爬虫数据集，包含原始网页数据、元数据提取和文本提取。
Wikipedia：网络维基百科，目前有超过1亿的条目项。
BooksCorpus：由100万本英文电子书组成的语料库。
WebText：一个来自于互联网的语料库，其中包含了超过8亿个网页的文本内容。
OpenWebText：类似于WebText，但是包含的文本数据更加规范化和质量更高。
ConceptNet：一个用于语义网络的数据库，其中包含大量的语言学知识。
NewsCrawl：从新闻网站收集的大量新闻文章的集合。
Reddit：一个包含了大量用户发布的信息的论坛网站。

而这些数据，也仅仅是互联网上文本信息的一部分，当然，可以认为这也是高质量数据的一部分。为什么不学习更多的数据？我的理解，这里有复杂的原因，既有数据的可获得性考虑，还要有大模型训练的成本（包括计算成本和时间成本）的平衡。但未来的趋势，一定是学习更多的数据，而且一定是多模态，多种媒体形式数据的学习。现在大模型的训练，已经变成了一种新的热潮，很多企业都开始拥抱大模型，也有很多在训练自己的大模型。Amazon和Texas A&M university 研究团队构建的现代LLM进化树，展示了其中部分企业的最新进展，有兴趣可以看一下：

不同媒体形式数据Token的差别是什么？

在大模型的机器学习中，token是指在信息数据处理中的最小单位，如果是文本信息的话，通常是单词或者子单词。在自然语言处理任务中，一个token可以是一个单词，也可以是一个词根、一个词缀或一个字符，这取决于数据预处理的方式和任务的需要。

在文本数据的预处理中，一个常见的步骤是将原始文本拆分成一个个token，这个过程称为tokenization。在深度学习模型中，tokenization通常是将文本转换为数字表示的第一步。每个token都被赋予一个唯一的整数编号，这个编号会作为模型输入中的一个特征向量的一部分。

在大模型的机器学习中，tokens的处理通常涉及到词表、嵌入矩阵等概念。这些概念都是为了将文本数据转换为数字表示，以便于神经网络模型进行计算和优化。

中文的Token比英文的要复杂，因为中文中没有明确的单词边界。

在英文中，单词之间通常由空格或标点符号分隔开，这使得单词的tokenization变得相对简单。而在中文中，单词之间没有空格，相邻的中文字符也不一定组成一个单词。因此，中文的tokenization通常需要使用一些特定的技术来处理这种情况。

一种常见的中文tokenization技术是基于中文分词。中文分词是将中文文本切分成一个个有意义的词语的过程。这个过程通常会用到一些预先训练好的分词器或字典，通过匹配字典中的词语或者使用统计方法来实现。

此外，在中文的tokenization中，还需要注意一些汉字之间可能存在的合并或拆分现象，以及不同语境下同一汉字可能表示不同的含义的情况。这些因素都需要考虑到，以保证中文文本的正确切分和tokenization。

除了文字之外，其他的信息，同样在学习前，也是要tokenization技术处理的。以下是对于不同类型数据的token解释：

音频：在音频处理中，token通常是指音频信号的采样值，即将一段时间内的声音信号离散化为一系列数字。这些数字被用于表示音频信号，并可以作为神经网络模型的输入。另外，音频的tokenization也可以基于声音的频率和时域信息，通过一些特征提取算法来实现。
图像：在图像处理中，token通常是指图像的像素值。像素是构成数字图像的最小单位，每个像素都有一个数值，代表该像素的颜色和亮度等信息。这些像素值被用于表示图像，并可以作为神经网络模型的输入。此外，也可以对图像进行特征提取，例如使用卷积神经网络等算法来提取图像的特征。
视频：在视频处理中，token通常是指视频中的一帧图像。视频由一系列连续的图像组成，每个图像都可以作为一个token。此外，还可以对视频进行特征提取，例如使用卷积神经网络等算法来提取视频的空间和时间特征。

对于非文本数据，例如图像和音频数据，如果直接将其全部进行tokenization，将会导致数据的体积变得非常大，并且可能丢失数据的一些关键信息。因此，在处理这些非文本数据时，可能需要使用一些特定的处理方法和特征提取技术，而不是直接进行tokenization。

支持AIGC的语音聊天机器人

今天分享的这段对话中，老黄和Ilya简单提到了语音语调在大模型识别和生成的重要性。其实这挺关键的，想到过去几年，非常火的智能语音技术。真正的体验是非常不好的，不仅仅需要每次沟通都要提示词，而且对包括方言等非标准语言的理解力很差，更不要说去理解语气语调了。而且，回答问题的方式也千篇一律，给人的感觉就是并不够智能。大部分的使用场景成了问天气，设闹钟，放歌和智能家电开关等简单用途上了。

未来，这些基于语音的交互智能家庭助手也应该支持类似ChatGPT的能力。ChatGPT能够实现对复杂的自然语言理解和生成任务的处理，而这些任务也可以应用到基于语音的交互智能家庭助手中。例如，基于语音的交互智能家庭助手可以使用ChatGPT来实现更加自然、流畅的对话和问答。同时，ChatGPT还可以通过对大量语音和文本数据的学习，提高基于语音的交互智能家庭助手的语音识别和自然语言处理能力。再也不用担心自己说的话不标准，AI不响应了，可以慢慢聊，逐渐趋近于业务需求，而且也不用刻意遵守什么AI对话语言规则，所谓的换了一种说话方式，AI就听不懂的情况。甚至更神奇的将是，你说什么语言，AI就会按照什么语言来回应。比如你说方言，它就方言回应，你说英语，它就英语回应。要多自然，有多自然。

不过，我们还是要意识到，AIGC的语音聊天机器人，必然面临新的挑战：

数据体积：音频数据通常比文本和图像数据更大，因此需要更多的存储空间和处理能力。对于大规模音频数据的处理，需要使用高效的计算和存储方案。
数据预处理：音频数据需要进行预处理，以便于神经网络的训练和推断。预处理包括提取特征、标准化和降噪等步骤。不同的预处理方法可能会影响模型的性能和效果。
噪声和变异性：音频数据通常会受到噪声和变异性的影响，例如不同的说话者、语气和背景噪声等。这些噪声和变异性可能会影响模型的精度和鲁棒性，需要使用合适的预处理方法和模型设计来处理。
音频模型的设计：对于不同的音频任务，需要使用不同的模型结构和训练方法。例如，对于语音识别任务，可以使用基于卷积神经网络和循环神经网络的模型，而对于语音合成任务，可以使用基于生成对抗网络和自注意力机制的模型。
训练数据和标注：音频数据需要进行标注，以便于模型的训练和评估。对于语音识别任务，需要进行音素或字级别的标注，而对于语音合成任务，则需要进行音高、音调和语速等方面的标注。标注数据的质量和数量会影响模型的性能和效果。

不过，我有信心，随着时间的推移，以上挑战终将不是问题。随着人工智能技术的不断发展和普及，基于语音的交互智能家庭助手会不断地提高自己的能力，以更好地服务用户，而且在和人的语音对话过程中，也是自我学习提升改进的过程（也就是通过每次沟通训练对任务的理解和表达能力，形成记忆，自主成长）。在未来，基于语音的交互智能家庭助手可能还会采用更加先进的技术和算法，例如端到端的语音识别和合成技术、基于深度强化学习的对话生成技术等，以提供更加智能化、个性化的服务。相信，不远的将来，能更为自然和人聊天的语音机器人会很快上市。

更加值得期待的多媒体交互

老黄和Ilya今天分享谈话的最后，Ilya谈到了对多模态的畅想。

支持多模态输出对ChatGPT对信息的回复，也不会简单局限在“蹦字儿”的状态了。比如如果我们在餐馆见到一个菜超级好吃，就把它拍下来，输入给ChatGPT。ChatGPT除了回复正常做菜的选料，预处理，烹饪的文本描述之外，每样原材料、预处理的手法，以及烹调的顺序和详细过程，还会有图片、视频相对应，避免理解错误。当然，这只是理想场景，现实场景，多模态输出未必如此赏心悦目。

一般来说，选择合适的模态输出需要考虑以下几个方面：

信息的类型和内容：不同类型和内容的信息适合使用不同的模态输出。例如，当需要传达具体的操作步骤或指示时，使用语音或视频等模态输出会更为直观和有效；而当需要传达大量的文本信息时，使用文字输出会更为方便和快速。
用户的偏好和需求：不同的用户有不同的偏好和需求，因此需要根据用户的特点选择合适的模态输出。例如，当用户更喜欢通过听觉方式获取信息时，使用语音输出会更为合适；而当用户更喜欢通过视觉方式获取信息时，使用图像或视频输出会更为合适。
应用场景和环境：不同的应用场景和环境对模态输出的要求也不同。例如，在嘈杂的环境中，使用语音输出可能会受到干扰，此时可以选择使用图像或文字等其他模态输出；而在需要快速操作的场景中，使用语音输出可能更为方便。

需要注意的是，如果同时使用多个模态输出来展示信息，可能会导致信息输入的瓶颈或信息拥塞，从而降低沟通效果。因此，在选择模态输出时，需要根据具体情况综合考虑，选择最为合适的模态输出方式，以提高信息传达的效率和准确性。

在多模态输出的场景中，如何选择合适的模态输出是一个需要考虑的问题。选择合适的模态输出，可以提高信息传达的效率和准确性，并且可以改善用户体验。

因为机器或许在信息处理和输出方面，速度可以灵活调整。但人类的注意力通道无法承载过多的信息输入。人类注意力的带宽是极为有限的，而且生物进化的缓慢速度相比于设备的增长、处理能力的提升几乎可以被定性为停滞不前。如果一味追求多媒体的输出，用户会被淹没在各种多媒体信息的海洋中中应接不暇、无所适从。因为注意力被各种多媒体透支占用，我们从之前的从容处理任务，逐渐过渡到被高负荷信息压得喘不过气的时代。所以，在合适的时机，合适的场景，针对合适的人，以合适的模态进行沟通，不去过多耗费用户的注意力，快速处理完事情后用户应立即撤回注意力做别的事情。才是最好的沟通策略。从我以前对多模态交互的理解，这个叫做平静交互原则。

在探讨AI技术决定论的前提下，注重体验仍然是非常关键的因素。

好了，今天我们先解读到这里。下次，我们会继续针对黄仁勋与Ilya Sutskever的“炉边谈话”的其他部分进行解读，敬请期待。