Hinton揭秘Ilya成长历程：Scaling Law是他学生时代就有的直觉-品论天涯网

2003年夏天的一个周日，AI教父Hinton在多伦多大学的办公室里敲代码，突然响起略显莽撞的敲门声。门外站着一位年轻的学生，说自己整个夏天都在打工炸薯条，但更希望能加入Hinton的实验室工作。Hinton问，你咋不预约呢？预约了我们才能好好谈谈。学生反问，要不就现在吧？TXS品论天涯网

TXS品论天涯网

这位年轻学生就是IlyaSutskever，刚刚完成本科二年级的数学课程，从教务处打听到“想学机器学习，最好去找Hinton教授”。TXS品论天涯网

他照做了，也因此成就了一段传奇：TXS品论天涯网

从AlexNet到AlphaGo，他两次参与改变世界的研究。TXS品论天涯网

OpenAI创立之初挖他去当首席科学家，在他的领导下，推出了GPT系列早期版本、DALL·E系列、代码大模型Codex，直到ChatGPT，再次改变世界。TXS品论天涯网

多年后，他发动董事会内讧，最终与OpenAI彻底分道扬镳，全世界都在等待着他的下一个动作。TXS品论天涯网

TXS品论天涯网

在OpenAI的时候，Ilya并不像Altman那样到处抛头露面，也不像Brockman天天在网上分享自己的“编程之禅”。TXS品论天涯网

仅有的几次演讲和访谈中也多是聊技术、宏观思考，不常谈及自己的经历，最近半年更是销声匿迹。TXS品论天涯网

这次的故事，正是来自他的博士导师GeoffreyHinton。TXS品论天涯网

在与SanaLabs创始人的最新对话节目中，Hinton不仅讲了自己的事，还回忆了师徒共事期间的一些往事。TXS品论天涯网

20多年过去了，很多细节在Hinton的叙述里还是那么鲜活。TXS品论天涯网

TXS品论天涯网

这段访谈录像理所当然的火了，除了轶事之外，还涉及Ilya的一些学术思想怎么来的，又是如何发展：TXS品论天涯网

2010年Ilya就用GPU开发了一种语言模型TXS品论天涯网

ScalingLaw最早是他的一种直觉TXS品论天涯网

两人都认为”语言模型不只是预测下一个token“TXS品论天涯网

两人都认同“预测即压缩压缩即智能”TXS品论天涯网

TXS品论天涯网

那么，Hinton眼中的Ilya，到底是什么样子？TXS品论天涯网

惊人的原始直觉TXS品论天涯网

Ilya加入实验室后，Hinton给他布置的第一个任务是读论文，一篇关于反向传播的论文。TXS品论天涯网

下一个周会，Ilya回来报告了，说“我不理解”。TXS品论天涯网

Hinton很失望，内心OS：“这孩子看着挺机灵的，咋连链式法则求导这么基础的东西都看不懂？”TXS品论天涯网

Ilya连忙解释，哦这个部分我懂了，我不理解的是，为什么不给梯度加一个sensiblefunctionaloptimizer？TXS品论天涯网

Hinto团队后来花了好几年来解决这个问题，最初指出问题的却是刚入门一周的Ilya。TXS品论天涯网

TXS品论天涯网

像这样的情况后面还在反复发生……Hinton如此评价Ilya：TXS品论天涯网

他对事物的原始直觉总是非常好。TXS品论天涯网

但Hinton也说搞不清楚Ilya这种直觉从何而来，或许归功于他从小就对人工智能问题感兴趣，再加上数学基础很棒。TXS品论天涯网

除了研究直觉，学生时期的Ilya也展现了超强的代码和工程能力。TXS品论天涯网

当时还没有TenserFlow或Torch之类流行框架，机器学习的主要工具和平台是Matlab。TXS品论天涯网

一项工作需要在Matlab里调整大量矩阵乘法代码，Ilya做了一段时间就很不耐烦，说要为Matlab写一个界面：TXS品论天涯网

我用其他（Python等更方便的）语言写代码，然后能自动转成Matlab代码就好了。TXS品论天涯网

Hinton听说后苦口婆心劝他，你可别，这得花上一个月时间，我们不要分心，把手头项目先做完。TXS品论天涯网

Ilya却轻描淡写地说，害，没事，今天早上我已经写完了。TXS品论天涯网

TXS品论天涯网

△这项工作出现在Ilya的博士毕业论文里TXS品论天涯网

打小就坚信ScalingLawTXS品论天涯网

正如Hinton所言，Ilya在很多问题上有惊人的直觉。TXS品论天涯网

今天全AI圈不少人信奉的ScalingLaw，Ilya学生时代就已坚信，并抓住各种机会向身边的人安利：TXS品论天涯网

只要（把模型）做得更大，它们就会发挥更好的作用。TXS品论天涯网

后来到OpenAI成立之处，Ilya的表述更加完善了：TXS品论天涯网

如果你有一个大而深的神经网络，可以在大量数据上进行训练，那么你实际上可以解决任何模式识别问题。TXS品论天涯网

早年间Hinton看来，这就像是研究者在没有创新的想法时，一种“逃避责任”的表现。TXS品论天涯网

当时的我错了，而Ilya基本上是对的。TXS品论天涯网

比如Transformer确实是一种创新想法，但实际上起作用的还是规模，数据的规模和计算的规模。TXS品论天涯网

TXS品论天涯网

Hinton提到在当年那个时间节点，没人敢预料计算机速度今后会快上10亿倍，最多想象到快100倍就不得了。TXS品论天涯网

如果有今天的计算机，当年研究的难题可能会自行解决，包括语言模型问题。TXS品论天涯网

（此处应插入比尔盖茨曾预言64k内存就足够任何人用了笑话)TXS品论天涯网

Ilya在2003年加入Hinton的实验室，不知具体何时开始有了ScalingLaw的想法，可能在他脑海里已经盘旋了20多年。TXS品论天涯网

TXS品论天涯网

后来直到2020年，GPT-3发布的几个月前，OpenAI团队才正式在论文中向世人完整定义和介绍这一理念。TXS品论天涯网

TXS品论天涯网

在语言模型上用GPU，比AlexNet更早TXS品论天涯网

2010年底，Ilya和另一个学生JamesMartens（现DeepMind研究科学家）合作研究了一种语言模型，后来入选ICML2011。TXS品论天涯网

RNN架构，使用维基百科数据，在8张当时最先进的GPU上训练，比在AlexNet上使用GPU还早两年。TXS品论天涯网

TXS品论天涯网

与今天的大语言模型预测下一个token不一样，当时他们尝试的是一次预测一个字符。TXS品论天涯网

这款模型能力有限，比如给一段起始文字，模型可以继续生成看起来像维基百科文章的语句。TXS品论天涯网

虽然语意上像是胡言乱语，但语法和标点符号大部分是准确的，引号和括号已经能成对出现，主语和动词形态一致，比如论文中的一段：TXS品论天涯网

生命的意义是古代人类繁殖的传统：对于好男孩什么时候移除她更大的来说，并不是很有利。在这个节目的协议中，几乎一致地重新浮现……TXS品论天涯网

TXS品论天涯网

当时多伦多大学校刊的采访中，Ilya认为这已经超出了所有人的预期：TXS品论天涯网

它发现了单词的存在，也发现了语法。TXS品论天涯网

Hinton理智上也无法去相信这个系统能“理解”任何事，但它看起来就像是理解了。TXS品论天涯网

比如给它一个地点组成的列表，它可以继续生成地点，尽管还分不出国家和州的区别。TXS品论天涯网

TXS品论天涯网

当年的Ilya并不愿意讨论这项工作的潜在应用。TXS品论天涯网

在维基百科上成功后，团队又尝试了纽约时报文章数据，目标是教会它根据文字识别不同作者的身份。TXS品论天涯网

但Ilya已经想到并承认，如果做的足够好，这项技术有一天可能成为洗稿软件的基础。TXS品论天涯网

如今，这篇论文的代码依然存放在多伦多大学的服务器上，供感兴趣的人研究。TXS品论天涯网

TXS品论天涯网

不止是预测下一个tokenTXS品论天涯网

后来的AlexNet、师徒三人“拍卖”自己加入Google等大家已熟知的故事，这里先略过。TXS品论天涯网

Ilya加入OpenAI后，虽然不再与Hinton共事，但两人的学术思想始终在一条路上。TXS品论天涯网

TXS品论天涯网

ChatGPT问世后，不少人批评大模型本质上只是统计学，预测下一个token，就像随机模仿人类说话的鹦鹉。TXS品论天涯网

但Hinton和Ilya师徒二人都认为，远不止如此。TXS品论天涯网

在Hinton眼中，问题之后的下一个token，便是答案的第一个token。TXS品论天涯网

因此学会预测，就意味着必须学会理解问题。TXS品论天涯网

这种理解的方式与人类相似，同时与老式基于三元组数据的自动补全有根本不同。TXS品论天涯网

今天我们现在已经看到了，做一个大语言模型，不刻意训练其推理能力，就产生了推理能力。TXS品论天涯网

这就是大脑如何学习，你在预测视觉的下一帧、听觉的下一个声音。TXS品论天涯网

TXS品论天涯网

Ilya更是不遗余力传播这套理论，在去年和英伟达老黄的炉边对话中说了这个，在OpenAI内讧两周前最后一个公开采访中也讲了这个：TXS品论天涯网

当我们训练一个大型神经网络来准确预测互联网上许多不同文本中的下一个单词时，我们所做的就是学习一个世界模型。TXS品论天涯网

从表面上看，可能只是在学习文本中的统计相关性。TXS品论天涯网

但事实证明，为了“只是学习”文本中的统计相关性，为了压缩它们，神经网络需要学习的是文本生成过程的某种表示。TXS品论天涯网

文本实际上是对世界的投影。TXS品论天涯网

TXS品论天涯网

在另一场采访中，他走的更远：TXS品论天涯网

很好地预测下一个token，意味着了解创造该token的深层现实。TXS品论天涯网

这不仅是统计学，而是理解创造了这些统计数字的那个世界。TXS品论天涯网

如果真的很擅长预测下一个token，就可能根据普通人如何行动的数据，外推出拥有非凡智慧和洞察力的人如何行动，尽管这种人可能并不存在。TXS品论天涯网

这就是Ilya认为的，为什么“预测下一个token”范式有可能抵达AGI，甚至有可能超越人类直至ASI。TXS品论天涯网

TXS品论天涯网

预测即压缩，压缩即智能TXS品论天涯网

在不同场合提到“预测下一个Token”时，Ilya大概率会同时提到“压缩”，他认为预测即是压缩，压缩就是智能的来源。TXS品论天涯网

但Ilya总是从理论的角度去解释这个想法，并不容易让所有人都能理解。TXS品论天涯网

比如在UCBerkley的一场演讲中，他这样解释：TXS品论天涯网

-“Kolmogorov压缩器”，是理论上能生成特定数据集的、长度最短的一段程序，能最小化遗憾值。TXS品论天涯网

-随机梯度下降，可以看成在软计算机（比如大型Transformer）的权重里，搜索隐含的“Kolmogorov压缩器”。TXS品论天涯网

-神经网络越大，就越能更好的近似“Kolmogorov压缩器”，遗憾值越低。TXS品论天涯网

TXS品论天涯网

Hinton也认同这个说法，并且在访谈中举了非常形象的例子。TXS品论天涯网

大模型做的是寻找共同结构，使用共同结构编码事物，这样效率更高。TXS品论天涯网

如果你问GPT-4堆肥和原子弹相似性在哪，大多数人类都回答不出来，认为它们是非常不同的两种东西。TXS品论天涯网

GPT-4会告诉你，虽然他们的能量规模不同，时间尺度不同，但仍有相同之处：TXS品论天涯网

当堆肥变热时，产生热量的速度就更快。TXS品论天涯网

当原子弹产生更多中子时，产生中子的速度也更快。TXS品论天涯网

通过类比，AI就理解了“链式反应”的概念。TXS品论天涯网

Hinton认为，AI在利用这种理解去将所有信息压缩到自己的权重中。TXS品论天涯网

一但AI这样做了，那么它就有能力理解数百种人类还未见过的类比，这就是创造力的来源。TXS品论天涯网

Hinton眼中什么是好学生？TXS品论天涯网

说回到两人相遇时，Hinton谈到，与他交谈没多久就能看出他很聪明。TXS品论天涯网

再多交谈一会，就能发现他有很好的直觉，而且擅长数学。TXS品论天涯网

所以选Ilya做学生是非常容易做出的决定。TXS品论天涯网

那么如何挑选其他学生？Hinton也用了Ilya最擅长的方法：跟着直觉走。TXS品论天涯网

如果一个人轻信别人告诉他的一切，那就太致命了。TXS品论天涯网

不轻信他人，而是尝试将新信息融入自己对世界的理解框架中，如果融入不进去，就拒绝，这是很好的策略。TXS品论天涯网

如果试图吸收被告知的一切，最终会得到一个非常模糊的框架。相信一切，但是没有用处。TXS品论天涯网

所以Hinton眼中的好学生，应该拥有一个坚定的世界观，并试图摆弄输入的事实以适应你的观点。TXS品论天涯网

这样虽然也可能陷入深信宗教或坚持致命错误，但我认为这种方法仍是正确的。TXS品论天涯网

后来我们也能看到，两人都是秉持这样的理念，坚持着“大模型不止是预测下一个token”，坚持着“预测即压缩，压缩即智能”。TXS品论天涯网

他们也都坚持认为，这个世界应该更加重视AI带来的风险，一个因此离开了工作10年的Google，一个因此离开了一手拉扯大的OpenAI。TXS品论天涯网