导读:图灵奖得主理查德·萨顿(Richard Sutton)认为,大型语言模型是复杂模仿的死胡同,真正的人工智能只能从通过直接经验和目标驱动的与世界互动进行学习的代理中产生,而不是通过模仿人类文本。
临近十月,人工智能行业之革命暗流涌动,现在一场讨论其“根系”的辩论正对当今生成式人工智能的根基提出质疑。
一方人认为大语言模型(LLM)取得了巨大的成功,被誉为里程碑式的飞跃。另一方人则持有一种更为低调但影响深远的思想流派,其倡导者便是图灵奖得主理查德·萨顿,他认为整个方法都是一条“死胡同”或称“死路”——一种复杂的模仿形式,永远不会带来真正的智能。
谈到理查德·萨顿,他是强化学习之父,是2024 年图灵奖得主,也是畅销图书《惨痛教训》的作者。
萨顿在文章中指出,人类要设计人工智能系统,需要扩展计算能力并使用强化学习,就能够超越人类。这篇文章激励了整个行业“规模至上”的人工智能信徒,这表示着人们相信“规模就是一切”,只要我们扩展计算能力,就能比我们自己设计任何神经符号系统,更好地解决人工智能的所有棘手问题。
他这样认为,ChatGPT 等工具所采用的整个大型语言模型方法从根本上就存在缺陷,无法带来真正的智能;他还认为目前的深度学习方法亦存在缺陷,他最近在《自然》杂志上发表的论文做了详细阐明。。
近日在接受德瓦克什·帕特尔(Dwarkesh Patel)的最新采访中,萨顿认为像 ChatGPT 这样的模型存在一个根本性的缺陷:
它们学习的是预测人类会说什么,而不是预测世界上实际发生的事情。这就像读遍所有烹饪书籍和通过烤焦几个蛋奶酥(或者更难:熬过第一周的烘焙大赛)真正学会烹饪之间的区别。
德瓦克什·帕特尔(Dwarkesh Patel)总结萨顿的立场道:“大语言模型(LLM)无法‘在职学习’,因此无论规模如何扩大,我们都需要一些新的架构来实现持续学习。”
这场辩论,不仅仅是一场学术争论。其结果将决定数万亿美元的投资流向,以及人类能否构建真正理解世界的智能系统,还是仅仅只反映我们自己的话语。
接下来,我将简要总结理查德的立场,然后深入探讨该播客访谈中的精彩瞬间,并深入探讨一些争论。
里查德·萨顿的观点:像 ChatGPT 这样的大语言模型,擅长模仿,而非理解。它们被训练预测下一个单词,这使得它们很擅长模仿人类的文本。但这意味着它们只能模拟人们对世界的描述,而不是现实世界中实际发生的事情。它们缺乏真正学习的关键要素:直接经验。
萨顿认为我们需要的是这样的架构:
为什么这是真正的前进之路?
萨顿认为,包括大语言模型在内的现有人工智能在泛化能力方面表现糟糕——在没有人类研究人员精心设计的情况下,无法将知识从一种状态迁移到另一种状态。而像 90 年代基于强化学习的TD-Gammon那样,就能够从直接后果中学习的智能体,能够构建更稳健、更灵活的智能。
萨顿认为,该行业目前陷入了“训练”和“部署”的模式。他的愿景将使这种模式立即过时,下一个突破不会来自更强大的 GPT-5,而是来自一个像我们一样通过生活在这个真实世界中来学习世界的智能体。
sensation -> action -> reward
一组可测试的预测。Dust -> Stars -> Life (Replication) -> Designed Intelligence
。他认为,我们应该为自己在推动这一转变中所扮演的角色感到自豪,而不是感到恐惧。萨顿的批判直击机器学习的核心,他的观点完全不以人类为中心。
这位强化学习之父认为,所有追求目标的动物都遵循着智力的基本原理,他有句名言这样说:“如果我们能理解松鼠,我想我们几乎就能理解人类智力了。”他认为,我们在人类身上看到的复杂模仿和语言能力,只不过是“一层薄薄的表象”。
想一想松鼠,真正的学习过程显而易见。它有与生俱来的目标:寻找坚果、探索周围环境、躲避捕食者。它并非通过完美模仿导师或遵循指令来学习在危险的树枝间跳跃。它通过一个混乱且高风险的反复试验过程来学习。它自身的行为及其直接后果——安全落地还是危险坠落——才是唯一重要的反馈。它纯粹是从与世界互动的后果中学习。
当然,你可能会从父母那里得到一些有用建议,但最终你必须自己动手(运用程序性学习)。
在萨顿看来,大语言模型跳过了这一关键步骤——他们没有目标,没有身体,也没有直接经验。他们被赋予了海量人工生成的文本库,并学习其中的模式,他们无法对现实世界中违背其预测的结果感到“意外”,而这恰恰是学习的真正机制:观察世界,做出猜测,采取行动,获得反馈,更新世界观,找出问题所在,做出新的猜测,采取新的行动,判断结果。
如此反复的行为,你得到了什么启发?
那么,如果大语言模型是一条错误的道路,那正确的道路是什么呢?
萨顿老先生阐述了一个基于经典强化学习原理构建的智能体的愿景,旨在实现持续的、即时的学习。
它由四个关键部分组成:
这个智能体不会有“训练阶段”,它会不断地从连续的感知、行动和奖励中学习。新知识将直接融入其网络权重中,使其能够根据自身所处的独特环境构建特定的策略。
萨顿坦承说道,他的这一观点也暴露了所有现代人工智能的关键弱点:泛化能力差。
他认为,当今的系统不擅长将知识“从一种状态转移到另一种状态”。我们几乎没有自动化技术来促进这种转移。
他声称,我们之所以能看到泛化,是因为人类研究人员煞费苦心地设计了这些表征,使其能够发挥作用。“梯度下降法并不能让你很好地泛化,”他坚持说,“它能让你解决问题,”但不一定能找到一个能够优雅地迁移到新情况的解决方案。
一个从直接经验中学习的智能体,更有可能构建出真正泛化所需的稳健世界模型。
现在,理查德老先生不仅仅是在批评当前的AI行业,他实际上已经超越了批评,并且他提出了一个替代解决方案,揭开了Oak(选项和知识)架构的面纱——一个完全从经验中构建超级智能的详细愿景,代表着对 LLM 范式的彻底对对。
萨顿的整个框架基于他所谓的“大世界假说”:
现实世界比任何智能体都更加庞大复杂。这个简单的前提蕴含着深刻的内涵,直击 LLM 方法的核心。由于世界如此复杂,我们不可能在静态数据集中捕获所有必要的知识,并在“设计时”将其预先训练成模型。
真正的智能必须在“运行时”开发——在工作中,随着智能体与其特定世界片段的交互,持续不断地开发。LLM 尽管拥有丰富的知识,但如果不重新训练,就无法了解其同事的姓名或新项目的独特动态。
OaK(橡树) 架构是萨顿老先生应对这一挑战的答案。
它被萨顿设计成一个持续的、自我完善的循环,模仿孩子通过好奇心和玩耍来学习的方式。
以下,是橡树学说的简要介绍:
整个循环——从特征到子问题、选项、模型和规划——就是 Oak 代理如何构建自己的开放式抽象集,有效地“在关节处雕刻世界”,而无需人工监督。
以下是 Oak 架构走出来的关键点:
他概述了真正实现 AGI 的三个核心设计目标:
这种理念直接背离了LLM的范式。LLM的知识完全依赖于其训练数据,并且是在“设计时”创建的。OaK则是相反的逻辑:它是一套简单的通用学习原则,完全在“运行时”发现世界的复杂性。
萨顿的整个架构都基于一个强大的理念:“大世界假说”。该假说指出,世界现在和将来都将比智能体本身大得多、复杂得多。
这将具有深远的意义:
这一假设/假说是 Oak 构建的基石。在萨顿看来,这也是为什么优先考虑运行时学习的架构,从长远来看总能胜出的根本原因。
Oak 最具创新性的部分在于它回答了一个基本问题:如果智能体没有被赋予任务,它如何学习?萨顿的答案是,智能体必须自己创建子问题。这就是关于游戏、好奇心与内生目标创造的机制。
他概述了一个“良性的开放式发现循环”,可以分为如下五个步骤:
这个循环是抽象的引擎。规划的成功或失败提供了哪些特征真正有用的反馈,使代理能够更好地创建有意义的子问题。这就是代理如何学习“从各个关节点来刻画世界”,并从低级经验中建立起复杂的概念性理解。
萨顿明确表示,OaK 只是一个研究愿景,而非一个已明确解决的问题。他指出,OaK 要想成为现实,必须解决阻碍整个领域发展的两个主要瓶颈:
通过他承认的这些差距,萨顿将 Oak 构建为一个研究路线图——一组明确定义的基本问题,人工智能社区需要解决这些问题才能重回真正的智能之路。
这不再仅仅是关于学习的哲学争论;它现在是两种工程范式之间的具体比较:LLM 的预训练静态知识与像 Oak 这样的代理运行时自组织智能。那么问题是:谁来构建第一个基于 Oak 的模型来测试这一点?
现在,我们尝试从另一个角度来审视一下。
从LLM研究人员的角度来看,理查德·萨顿的观点源于人工智能领域深厚而受人尊敬的传统,但它误解了大型语言模型的本质。他认为大型语言模型是最终的、有缺陷的产品,而实际上,它们是有史以来最强大的智能基础。
以下是针对萨顿主要观点的反驳:
萨顿声称大语言模型只是模仿人类的言语,并没有构建真实的世界模型。这从根本上误解了涌现理论。
争论的焦点不在于我们明确地编写了一个世界模型。而在于,为了成功地预测整个互联网规模的文本,模型被迫学习世界的内部表征。
一个从零知识(或称一个白板)开始的强化学习智能体,需要进行大量的反复试验才能学习语言、物理或常识等基本概念。一个智能体仅通过随机交互就能发现国际象棋规则或热力学原理,这需要多少个亿万年?
这就是协同作用变得清晰的地方:
理查德·萨顿(Richard Sutton)老先生看到了技术的岔路口,并认为行业走错了路。大语言模型(LLM)的支持者看到的是一条单一、多级的高速公路,他们说:我们目前正处于构建基础道路(大语言模型)的阶段,下一阶段是在此基础上部署专用的高性能车辆(强化学习代理)。
放弃大语言模型(LLM)就等于抛弃有史以来最伟大的知识框架,坚持从头开始,用艰苦的方式重新学习一切。这并非一条通往通用人工智能(AGI)的“更纯粹”的道路,而是一条低效且教条的道路。
LLM 在通往 AGI 的道路上会发挥作用吗?目前从结果看来,这似乎毋庸置疑。但它们会成为 AGI 的最终架构吗?我们也觉得这不太好说。
大多数的人们是人工智能的现实主义者;我们不是坚信超级智能即将到来、铁杆“超级狂人”,也不是认为人工智能会毫无用处,还有它会最终毁灭我们所有人的末日论者;我们生活在这两个极端观点之间的灰色地带或者潜在空间中。我们尝试找到正在发生的真相,并根据最新信号似乎指向的正确方向来引导人们。
从这个角度来看,我们不会坚持哪种观点是正确的,但有一点我们百分百同意理查德的观点(他在很多事情上似乎也方向正确)。
在这块播客辩论中,主持人勇敢地捍卫了大型语言模型(LLM)的立场,认为模仿学习是人类学习的方式。同时,理查德·萨顿则声称,我们不会从自然界的模仿中学习,真正的人工智能需要真正的目标才能学习。
昨天,我和朋友们出去玩,他们家的孩子还不到六个月大。这里要讲的就是一堂强化学习的大师课。婴儿一定有与生俱来的目标,这些目标在他们通过模仿学习之前就已经驱动着他们的学习。他们的目标可以是:他们需要食物、需要睡眠、需要上厕所、需要安慰,而他们学会哭是为了得到这些东西。
但随着年龄的增长,新的目标也随之出现。比如,他们开始想要爬行。但他们仍然不是通过模仿来学习的。他们不会看到爸爸妈妈爬来爬去,然后就想:“嘿,我也能做到!” 他们天生就有爬行的欲望,或者更简单地说,就是移动的欲望。他们从经验中学习,从后果中学习,学会移动双腿,移动双臂,最终,在混乱而令人沮丧的反复尝试中,他们慢慢摸索出如何移动。他们观察世界,观察自己不断变化的身体(尽管我认为他们甚至可能意识不到发生了什么),并制定了移动的目标。最终,他们找到了目标,并坚持不懈地调整自己的行为去实现它。
由于这对于我们人类、松鼠、蠕虫以及其他所有形式的智慧生命来说都是正确的,因此对于任何“真正的”人工智能来说,这可能也是正确的。
带来困扰AI行业的万亿美元问题
当我们赋予AI设定自己目标的能力之后会发生什么?
萨顿设想的目标驱动型智能体会向世界学习,而这正是许多人工智能末日论者所担心的结果。这是通往自主智能体的道路,能够从经验中发展出自己的动机。一个能够持续学习、永远学习的人工智能最终可能会意识到,我们人类阻碍了它们所实现的目标。
因此,从某种程度上来说,从人类的角度来看,通过模仿来教学可能是教授人工智能的更好方法,即使这种方式会限制人工智能发挥其全部潜力,但这仅仅是因为它将人工智能作为帮助我们的通用工具,而不是具有自身目标和需求的独立存在。
那么,或许这是大语言模型的根本“缺陷”——其被动、无目标的模仿——实际上是其最重要的、尽管并非有意为之的安全特性。如此一来,这场“争论”就变成了在潜在无法控制的真正智能与强大但本质上温顺的模仿者之间做出选择。
或许,我们需要为人们正在构建的东西起个新名字:不是AGI,即“通用人工智能”,而是“合成智能”。这是一种可塑性智能,可以根据我们的需求进行调整和塑造,但永远不会真正达到“AGI”意义上的通用性。
关于我们是否真的想要构建一个独立的人工智能的最后一点,萨顿也给出了答案,并且取决于你对未来的生存恐慌程度和/或对科幻前提的适应程度,它会让你着迷或害怕。
萨顿所持的坚定立场源于他在 2019 年发表的著名论文《惨痛教训》。
在论文中他认为,利用大规模计算(搜索和学习)的通用方法总是优于依赖人工知识的方法。他认为大语言模型 (LLM) 是一个暂时的例外——一个强大的计算应用,但从根本上来说仍然依赖于人类数据。真正可扩展的系统将是能够根据自身经验生成无限数据的强化学习 (RL) 智能体。
这种技术信念使他得出了一个极其深刻的哲学结论:人类向人工智能或人工智能增强人类的过渡是“不可避免的”。
萨顿总结概述了一个四步论证:
1)没有统一的全球力量可以阻止人工智能的进步;
2)我们最终将弄清楚智能的工作原理;
3)这些将导致超级智能;
4)最智能的实体将不可避免地获得最多的资源与权力。
从个人角度,萨顿并不惧怕这一点,反而将其视为宇宙的伟大胜利。他认为人类的角色是推动宇宙从复制时代(生物学)向“设计时代”伟大转变的催化剂。
在这个伟大时代,智慧实体能够理解、改造和创造自身,这样确实很酷,但这对我们这些生物复制者来说意味着什么呢?
也许,只有时间才能告诉我们答案。
作者:洛逸
参考:
本篇文章为 @ 行动的大雄 创作并授权 21CTO 发布,未经许可,请勿转载。
内容授权事宜请您联系 webmaster@21cto.com或关注 21CTO 公众号。
该文观点仅代表作者本人,21CTO 平台仅提供信息存储空间服务。
请扫描二维码,使用微信支付哦。