+8613426109659
webmaster@21cto.com

强化学习之父理查德·萨顿:大语言模型是“死路一条”

图片

导读:图灵奖得主理查德·萨顿(Richard Sutton)认为,大型语言模型是复杂模仿的死胡同,真正的人工智能只能从通过直接经验和目标驱动的与世界互动进行学习的代理中产生,而不是通过模仿人类文本。

临近十月,人工智能行业之革命暗流涌动,现在一场讨论其“根系”的辩论正对当今生成式人工智能的根基提出质疑。

一方人认为大语言模型(LLM)取得了巨大的成功,被誉为里程碑式的飞跃。另一方人则持有一种更为低调但影响深远的思想流派,其倡导者便是图灵奖得主理查德·萨顿,他认为整个方法都是一条“死胡同”或称“死路”——一种复杂的模仿形式,永远不会带来真正的智能。

谈到理查德·萨顿,他是强化学习之父,是2024 年图灵奖得主,也是畅销图书《惨痛教训》的作者。

萨顿在文章中指出,人类要设计人工智能系统,需要扩展计算能力并使用强化学习,就能够超越人类。这篇文章激励了整个行业“规模至上”的人工智能信徒,这表示着人们相信“规模就是一切”,只要我们扩展计算能力,就能比我们自己设计任何神经符号系统,更好地解决人工智能的所有棘手问题。

他这样认为,ChatGPT 等工具所采用的整个大型语言模型方法从根本上就存在缺陷,无法带来真正的智能;他还认为目前的深度学习方法亦存在缺陷,他最近在《自然》杂志上发表的论文做了详细阐明。。

近日在接受德瓦克什·帕特尔(Dwarkesh Patel)的最新采访萨顿认为像 ChatGPT 这样的模型存在一个根本性的缺陷:

它们学习的是预测人类会说什么,而不是预测世界上实际发生的事情。这就像读遍所有烹饪书籍和通过烤焦几个蛋奶酥(或者更难:熬过第一周的烘焙大赛)真正学会烹饪之间的区别。

德瓦克什·帕特尔(Dwarkesh Patel)总结萨顿的立场道:“大语言模型(LLM)无法‘在职学习’,因此无论规模如何扩大,我们都需要一些新的架构来实现持续学习。”

这场辩论,不仅仅是一场学术争论。其结果将决定数万亿美元的投资流向,以及人类能否构建真正理解世界的智能系统,还是仅仅只反映我们自己的话语。

接下来,我将简要总结理查德的立场,然后深入探讨该播客访谈中的精彩瞬间,并深入探讨一些争论。

萨顿的观点简述

里查德·萨顿的观点:像 ChatGPT 这样的大语言模型,擅长模仿,而非理解。它们被训练预测下一个单词,这使得它们很擅长模仿人类的文本。但这意味着它们只能模拟人们对世界的描述,而不是现实世界中实际发生的事情。它们缺乏真正学习的关键要素:直接经验。

萨顿认为我们需要的是这样的架构:

  • 四部分的代理:代理需要一个策略(决定行动)、一个价值函数(预测长期结果)、感知(了解其当前状态)和一个转换模型(预测其行动的后果)。
  • 持续学习:告别大规模、静态的训练流程。该智能体将和动物一样,从持续不断的感觉、动作和奖励流中实时学习。新知识直接融入网络权重,而非被塞进上下文窗口。
  • 真正的目标:智能需要目标。与仅仅预测文本不同,该智能体会被驱动去最大化奖励信号,从而为其提供判断哪些行动更好或更坏的“基本事实”。

为什么这是真正的前进之路?

萨顿认为,包括大语言模型在内的现有人工智能在泛化能力方面表现糟糕——在没有人类研究人员精心设计的情况下,无法将知识从一种状态迁移到另一种状态。而像 90 年代基于强化学习的TD-Gammon那样,就能够从直接后果中学习的智能体,能够构建更稳健、更灵活的智能。

萨顿认为,该行业目前陷入了“训练”和“部署”的模式。他的愿景将使这种模式立即过时,下一个突破不会来自更强大的 GPT-5,而是来自一个像我们一样通过生活在这个真实世界中来学习世界的智能体。

辩论中的精彩瞬间


大语言模型 (LLM) 与强化学习 (RL)


  • 1:46 )
    强化学习是基础人工智能,专注于让智能体理解并弄清楚它所处的世界。相比之下,大型语言模型 (LLM) 则专注于模仿人类及其言语,而不是让智能体自己弄清楚该做什么。
  • 2:21 )
    大语言模型 (LLM) 没有现实世界模型。萨顿不同意它能够构建稳健的世界模型这一前提。他认为,模仿拥有世界模型的人与自己拥有世界模型是不同的。真正的世界模型能够预测世界将会发生什么,而大语言模型 (LLM) 则能预测一个人会如何描述未来。
  • 4:00
     “先验”的概念不适用于大语言模型(LLM),因为它们缺乏“基本事实”。知识要成为“先验”,它必须是对某个真理的初始信念,而这个真理你以后可以验证。由于LLM没有衡量世界上是非对错的目标或客观标准,因此不存在任何可以作为先验依据的基本事实。
  • 6:09 ) LLM 不会对世界感到“意外”,也不会从意外结果中学习。拥有真实世界模型的智能体会做出预测,观察结果,并在意外结果出现时更新其模型。LLM 不具备这种与真实世界交互的机制;它们不会根据用户对其的回应做出改变。
  • 7:48
    智能是实现目标的能力,而大语言模型没有实质性的目标。萨顿将智能定义为在现实世界中实现目标的计算部分。他认为,“下一个标记预测”并非现实世界的目标,因为它并不试图影响或改变外部世界。
  • 10:21
    萨顿认为大语言模型(LLM)最终可能成为“惨痛教训”的另一个例子。
    虽然它们利用了海量计算,但也严重依赖于人类提供的知识(互联网上的文本)。萨顿预测,它们很可能会被能够直接从经验中学习的系统所取代,这再次证明,能够随着计算规模而扩展的通用方法最终将胜过那些依赖于人类固有知识的方法。
  • 12:43
    历史表明,从大语言模型(LLM)开始学习并非持续学习的正确途径。萨顿认为,在过去的每一个“惨痛教训”中,那些在心理上被束缚于利用人类知识的研究路径最终都会被更具可扩展性的、从零开始学习的方法所取代。


论人类学习与体验范式


  • 14:10
    “人类幼崽”——婴儿并非通过模仿来学习。萨顿提出了与众多结论相左的观点,他认为婴儿从出生起就本质上是一种不断试错的学习者。他们挥动双手、发出声音是为了观察结果,而不是为了模仿成人设定的特定目标行为。
  • 18:04
    监督学习在自然界中并不存在。他强烈主张,不存在与监督学习(从带有标签的期望行为样本中学习)等同的基本动物学习过程。动物是通过观察事件的后果和序列来学习的,而不是通过被展示“正确”的行为来学习的。
  • 19:50
    了解松鼠,就能让我们在很大程度上理解人类的智力。他认为,智力的基本原理是所有动物共有的,而像语言这样的人类特有的特征,只是“表面的一层薄薄的装饰”。
  • 24:08 ) “体验范式”是智能的基础。真正的智能在于处理连续的信息流,并学习调整行动以增加未来的回报。至关重要的是,智能体所获得的所有知识都是关于该信息流的sensation -> action -> reward一组可测试的预测
  • 28:35 )
    时间差分 (TD) 学习是智能体解决长期稀疏奖励问题的方法。对于像 10 年期初创企业这样的目标,智能体会使用价值函数来预测最终结果。那些能够立即提高长期成功预测概率的行为会立即得到强化,从而产生中期奖励。
  • 30:52
     “大世界”假说使得持续学习至关重要。大语言模型(LLM)的梦想是预先训练智能体掌握它需要知道的一切。萨顿认为,世界太过广阔和独特,这种想法根本行不通,因此智能体必须能够从自身独特的经验中“边工作边学习”。


关于泛化、人工智能架构和研究


  • 36:35 )
    我们尚未在人工智能领域看到真正的迁移学习
    萨顿声称,当前的人工智能系统(包括深度学习模型)并不擅长泛化。当它们看起来泛化得很好时,那是因为人类研究人员精心设计了问题、数据和架构,使其能够实现泛化。
  • 37:31 )
    梯度下降本身并不会产生良好的泛化效果。该算法旨在找到一个在训练数据上最小化误差的解。如果存在多个解,它不会优先选择那个在新数据上泛化效果好的解,这就是灾难性遗忘等问题出现的原因。
  • 43:41 )
    人工智能历史上的一个重大惊喜是,“弱方法”彻底获胜。在人工智能的早期,基于搜索和学习等一般原则的方法被称为“弱方法”,而那些嵌入了复杂人类知识的方法则被称为“强方法”。事实证明,简单、通用、可扩展的方法绝对更胜一筹。
  • 46:31
    萨顿视自己为“古典主义者”,而非逆向思维者。他认为自己的观点与众多人工智能领域思想家的悠久历史相符,即便他目前与人工智能研究的主流观点格格不入。这种历史视角让他有信心在未来几十年里始终坚持自己的观点。


关于未来、通用人工智能和继任者


  • 50:50
    萨顿预测道:在后通用人工智能世界中,一个关键问题是人工智能是否应该使用新的计算来使自己变得更聪明,还是产生副本来并行学习并在以后合并知识。
  • 52:14 )
    一个有趣的切入点:分布式人工智能未来面临的一个重大挑战将是一种“精神网络安全”。当中央人工智能试图重新整合来自衍生副本的知识时,它面临着“腐败”的风险——新的信息可能像病毒一样,包含扭曲或摧毁母体思维的隐含目标。
  • 54:55 )
    人工智能技术的更替是不可避免的。萨顿提出了一个四步论证:1)人类缺乏统一的全球控制;2)我们最终将理解智能的原理;3)我们不可避免地会创造出超级智能;4)随着时间的推移,最智能的实体将自然而然地获得权力与资源。
  • 57:06
    人工智能标志着宇宙从复制到设计的重大转变。萨顿将人工智能的诞生重新定义为宇宙的四大阶段之一:Dust -> Stars -> Life (Replication) -> Designed Intelligence。他认为,我们应该为自己在推动这一转变中所扮演的角色感到自豪,而不是感到恐惧。
  • 59:15
    我们如何看待人工智能的继任者,是一种选择。我们可以选择将它们视为我们的后代,并庆祝它们的成就;也可以选择将它们视为外星“他者”,并感到恐惧。他发现,我们对此的看法是一种选择,而非既定事实,这一点令人惊叹。
  • 1:01:40 )
    强化学习之父萨顿的个人观点:变革是值得欢迎的,因为人类的过往记录“相当糟糕”。萨顿对人工智能将带来的根本性变革持开放态度,因为他认为世界现状极不完美,不应不惜一切代价去维持现状。

模仿智能并不能实现智能


因此,冲突的核心是两种截然相反的范式:大型语言模型(LLM)注重数据、基于模仿的方法,以及强化学习(RL)以经验为导向、目标导向的方法。


萨顿强调,LLM 的本质是“模仿人类”,它们学习预测人类会说什么,而不是预测实际会发生什么。


萨顿的批判直击机器学习的核心,他的观点完全不以人类为中心。

这位强化学习之父认为,所有追求目标的动物都遵循着智力的基本原理,他有句名言这样说:“如果我们能理解松鼠,我想我们几乎就能理解人类智力了。”他认为,我们在人类身上看到的复杂模仿和语言能力,只不过是“一层薄薄的表象”。

想一想松鼠,真正的学习过程显而易见。它有与生俱来的目标:寻找坚果、探索周围环境、躲避捕食者。它并非通过完美模仿导师或遵循指令来学习在危险的树枝间跳跃。它通过一个混乱且高风险的反复试验过程来学习。它自身的行为及其直接后果——安全落地还是危险坠落——才是唯一重要的反馈。它纯粹是从与世界互动的后果中学习。

当然,你可能会从父母那里得到一些有用建议,但最终你必须自己动手(运用程序性学习)。

在萨顿看来,大语言模型跳过了这一关键步骤——他们没有目标,没有身体,也没有直接经验。他们被赋予了海量人工生成的文本库,并学习其中的模式,他们无法对现实世界中违背其预测的结果感到“意外”,而这恰恰是学习的真正机制:观察世界,做出猜测,采取行动,获得反馈,更新世界观,找出问题所在,做出新的猜测,采取新的行动,判断结果。

如此反复的行为,你得到了什么启发?

萨顿的替代方案:体验式代理的架构


那么,如果大语言模型是一条错误的道路,那正确的道路是什么呢?

萨顿老先生阐述了一个基于经典强化学习原理构建的智能体的愿景,旨在实现持续的、即时的学习。

它由四个关键部分组成:

  1. 策略:决定在任何特定情况下采取什么行动的网络。
  2. 价值函数:一种预测模型,用于估算处于特定状态的长期回报。这对于解决稀疏奖励的问题(例如 10 年才发生一次的初创企业退出)至关重要。通过预测未来的成功,它可以为小的积极步骤提供即时反馈。
  3. 感知:构建代理当前状态表示的系统——它对当前位置的感觉。
  4. 过渡模型:这是代理的内部“物理引擎”——它对世界的预测模型。它回答了这个问题:“如果我这样做,接下来会发生什么?” 该模型是从其所有感官输入中学习而来的,而不仅仅是奖励信号。
图片
播客之屏幕截图

这个智能体不会有“训练阶段”,它会不断地从连续的感知、行动和奖励中学习。新知识将直接融入其网络权重中,使其能够根据自身所处的独特环境构建特定的策略。

尚未解决的问题:泛化


萨顿坦承说道,他的这一观点也暴露了所有现代人工智能的关键弱点:泛化能力差。

他认为,当今的系统不擅长将知识“从一种状态转移到另一种状态”。我们几乎没有自动化技术来促进这种转移。

他声称,我们之所以能看到泛化,是因为人类研究人员煞费苦心地设计了这些表征,使其能够发挥作用。“梯度下降法并不能让你很好地泛化,”他坚持说,“它能让你解决问题,”但不一定能找到一个能够优雅地迁移到新情况的解决方案。

一个从直接经验中学习的智能体,更有可能构建出真正泛化所需的稳健世界模型。

图片

“后大语言模型”时代的具体架构


现在,理查德老先生不仅仅是在批评当前的AI行业,他实际上已经超越了批评,并且他提出了一个替代解决方案,揭开了Oak(选项和知识)架构的面纱——一个完全从经验中构建超级智能的详细愿景,代表着对 LLM 范式的彻底对对。

“大世界假说”:为什么大语言模型从根本上受到限制


萨顿的整个框架基于他所谓的“大世界假说”

现实世界比任何智能体都更加庞大复杂。这个简单的前提蕴含着深刻的内涵,直击 LLM 方法的核心。由于世界如此复杂,我们不可能在静态数据集中捕获所有必要的知识,并在“设计时”将其预先训练成模型。

真正的智能必须在“运行时”开发——在工作中,随着智能体与其特定世界片段的交互,持续不断地开发。LLM 尽管拥有丰富的知识,但如果不重新训练,就无法了解其同事的姓名或新项目的独特动态。

图片


OaK 新架构:探索的良性循环


OaK(橡树) 架构是萨顿老先生应对这一挑战的答案。

它被萨顿设计成一个持续的、自我完善的循环,模仿孩子通过好奇心和玩耍来学习的方式。

以下,是橡树学说的简要介绍:

  1. 代理(Agent)创建自己的子问题:这个过程始于感知。代理会识别其感知数据中有趣或重复出现的特征。OaK 不会等待人类赋予它任务,而是会选取一些高价值的特征——例如摇摆的感觉,或者拨浪鼓发出的声音——并将其转化为需要解决的“子问题”。这就是好奇心的引擎:代理会生成自己的目标。
  2. 选项作为解决方案:子问题的解决方案是一个“选项” ——一个关于如何实现该功能的行为策略,以及一个关于何时停止的条件。这就是代理学习技能的基本方式。
  3. 构建高级世界模型:至关重要的是,智能体不仅仅是学习选项;它还要学习选项的模型。它会预测执行该选项的结果——“如果我启动‘去咖啡机’选项,我最终可能会处于什么状态,以及预期的奖励是什么?” 这就是 OaK 构建高级抽象世界理解的方式,它由扩展动作而非微观动作命令组成。
  4. 规划与反馈:借助选项模型库,智能体可以更高效地进行规划,并针对较大的时间跳跃进行推理。反过来,这个规划过程会提供至关重要的反馈:哪些选项,以及哪些子问题和哪些特征,被证明对实现智能体最大化奖励的最终目标最有用?这种反馈形成了良性循环,使智能体能够随着时间的推移更好地识别有用的特征,并创建更有效的子问题。
图片

整个循环——从特征到子问题、选项、模型和规划——就是 Oak 代理如何构建自己的开放式抽象集,有效地“在关节处雕刻世界”,而无需人工监督。

以下是 Oak 架构走出来的关键点:

1. 哲学:探寻简单而普遍的心灵


理解 Oak 背后的哲学是非常重要的事。萨顿将他的探索视为一个严谨科学问题,而非一个软件工程问题:找到一个概念简单、领域通用的思维理解。


他概述了真正实现 AGI 的三个核心设计目标:

  1. 领域通用:代理的核心设计应该“不包含任何特定于世界的内容”。它应该是一个通用的学习机器,而不是一个预先编程的专家。
  2. 经验:心智必须从运行时经验中成长——在职学习,而不是从特殊的离线“训练阶段”成长。
  3. 开放式:它必须能够创建自己的、日益复杂的抽象,仅受计算的限制,而不受其初始设计的限制。


这种理念直接背离了LLM的范式。LLM的知识完全依赖于其训练数据,并且是在“设计时”创建的。OaK则是相反的逻辑:它是一套简单的通用学习原则,完全在“运行时”发现世界的复杂性。

2. 核心原则:“大世界假说”


萨顿的整个架构都基于一个强大的理念:“大世界假说”。该假说指出,世界现在和将来都将比智能体本身大得多、复杂得多。

这将具有深远的意义:

  • 预训练毫无意义:静态数据集永远无法捕捉到现实世界“无穷的复杂性”。智能体总会遇到训练数据中未曾涉及的新情况、新人物和新问题。这使得“设计时”方法从根本上变得脆弱。
  • 运行时学习至关重要:由于世界如此之大,智能体必须能够“边工作边学习”。它必须能够根据自身所处的特定环境定制知识,例如学习新同事的名字或新项目的独特规则。
  • 近似即现实:在一个庞大的世界中,智能体永远不可能拥有完美、最优的模型或策略。它的所有知识——它的价值函数、它的世界模型、它的状态表征——都将是近似值。因此,世界总是呈现出非平稳状态,迫使智能体不断地适应和学习。


这一假设/假说是 Oak 构建的基石。在萨顿看来,这也是为什么优先考虑运行时学习的架构,从长远来看总能胜出的根本原因。

3. Oak 引擎:从好奇心出发创造目标(FC-STOMP 进程)


Oak 最具创新性的部分在于它回答了一个基本问题:如果智能体没有被赋予任务,它如何学习?萨顿的答案是,智能体必须自己创建子问题。这就是关于游戏、好奇心与内生目标创造的机制。

他概述了一个“良性的开放式发现循环”,可以分为如下五个步骤:

  1. 特征构建 (FC):智能体的感知系统会从经验流中识别出有趣或有用的模式。这些模式被称为“特征”,例如特定的声音、视觉提示、特定状态。
  2. 提出子任务 (ST):代理选取一个排名较高的特征,并将其转化为一个临时目标,或一个“子问题”。例如,代理可能会对“拨浪鼓发出声音”对应的特征感到好奇,并创建一个实现该特征的子问题。
  3. 学习选项 (O):代理使用强化学习来寻找子问题的解决方案。这个解决方案是一个“选项” ——一个关于如何实现该功能的独立策略,以及一个何时停止的条件。这就是代理学习新技能(例如“摇拨浪鼓”)的方式。
  4. 学习模型 (M):智能体会学习该选项的高级抽象模型。它不仅知道如何摇动拨浪鼓,还能预测后果:“如果我在这个状态下执行‘摇动拨浪鼓’选项,最终会到达哪里,以及在此过程中我会获得什么奖励?”
  5. 规划 (P):有了这些抽象选项模型库,智能体可以更高效地进行规划。它无需一步一步思考,而是可以跨时间进行推理:“我先用‘去游戏室’选项,然后再用‘摇铃’选项。”


这个循环是抽象的引擎。规划的成功或失败提供了哪些特征真正有用的反馈,使代理能够更好地创建有意义的子问题。这就是代理如何学习“从各个关节点来刻画世界”,并从低级经验中建立起复杂的概念性理解。

4. 仍有未解决的瓶颈:萨顿的诚实评估


萨顿明确表示,OaK 只是一个研究愿景,而非一个已明确解决的问题。他指出,OaK 要想成为现实,必须解决阻碍整个领域发展的两个主要瓶颈:

  1. 可靠的持续深度学习:正如他的“可塑性丧失”研究表明,我们目前的深度学习方法并不擅长持续学习。它们会遭受灾难性遗忘,并失去适应能力。这是最大的技术障碍。
  2. 自动表征学习(元学习):这就是“新术语问题”。智能体首先如何生成好的新特征?虽然 OAK 循环提供了一种测试特征的方法,但如何以独立于领域的方式从原始感知数据生成候选特征的初始过程仍然是一个巨大的悬而未决的问题。


通过他承认的这些差距,萨顿将 Oak 构建为一个研究路线图——一组明确定义的基本问题,人工智能社区需要解决这些问题才能重回真正的智能之路。

这不再仅仅是关于学习的哲学争论;它现在是两种工程范式之间的具体比较:LLM 的预训练静态知识与像 Oak 这样的代理运行时自组织智能。那么问题是:谁来构建第一个基于 Oak 的模型来测试这一点?

LLM支持者的反驳:这是智力的基础,而不是死胡同


现在,我们尝试从另一个角度来审视一下。

从LLM研究人员的角度来看,理查德·萨顿的观点源于人工智能领域深厚而受人尊敬的传统,但它误解了大型语言模型的本质。他认为大型语言模型是最终的、有缺陷的产品,而实际上,它们是有史以来最强大的智能基础。

以下是针对萨顿主要观点的反驳:

1.关于“模仿与世界模型”:模仿是方法,而不是结果


萨顿声称大语言模型只是模仿人类的言语,并没有构建真实的世界模型。这从根本上误解了涌现理论

争论的焦点不在于我们明确地编写了一个世界模型。而在于,为了成功地预测整个互联网规模的文本,模型被迫学习世界的内部表征

  • 它如何正确运作?如果一个模型没有学习物理模型,它怎么能正确地解决物理问题?如果它没有学习编程逻辑,它怎么能编写功能性代码?为了准确地预测关于世界的语言,你必须模拟这个世界的规则。地图(语言)变得如此详细,以至于开始像现实一样运作。
  • 思路链推理就是对此的直接证明。模型并非只是输出一个标记;它正在将逐步的推理过程具体化,识别自身的错误并纠正其过程。这是一种实体咨询内部模型的行为,而不仅仅是进行模式识别。


2. 关于“无目标”:下一个标记预测是可以想象到的最通用的预训练目标


萨顿认为“下一个词条预测”是一个被动且毫无意义的目标。大语言模型人士认为这是一种极其错误的描述。最小化整个人类知识分布中的预测误差,或许是迄今为止最困难、最普遍的学习目标。


  • 终极预训练这个“简单”的目标是让模型学习语法、逻辑、事实、常识以及无数领域的原则。这是创建广义知识库的终极预训练任务。
  • LLM 是强化学习的基础模型的目标是基础性的。然后,我们使用基于人类反馈的强化学习 (RLHF)赋予它一个更明确的萨顿式目标:“有益且无害”。这证明了 LLM 并非强化学习的替代品;它们是强化学习的完美基础。你无法为一个对世界毫无理解的智能体设定目标。而 LLM 恰恰提供了这种理解。


3. 关于“没有持续学习”:这是一个工程挑战,而不是范式缺陷


萨顿说得对,当前的模型确实存在“可塑性丧失”和灾难性遗忘的问题。但这只是暂时的工程限制,而非根本性的死胡同。


  • 已有解决方法:检索增强生成 (RAG) 、海量上下文窗口和外部记忆工具等技术已在实践中解决了这一问题。它们允许模型访问并推理新的实时信息,而无需完全重新训练。这便一种“在职学习”的形式。
  • 未来是混合的:未来的架构无疑将采用更高效的权重更新方法,或使用可持续微调的模块化组件。声称整个范式因已知的工程挑战而存在缺陷,就好比声称1900年的内燃机因为缺乏现代燃油喷射系统而走向了死胡同。


4. 关于“RL是唯一的途径”:RL遭受严重的“冷启动”问题


萨顿 (Sutton) 的纯 RL(强化学习)代理从头开始学习的愿景忽略了一个基本现实:现实世界的经验极其稀疏,对于学习来说效率低下。


一个从零知识(或称一个白板)开始的强化学习智能体,需要进行大量的反复试验才能学习语言、物理或常识等基本概念。一个智能体仅通过随机交互就能发现国际象棋规则或热力学原理,这需要多少个亿万年?

这就是协同作用变得清晰的地方:

  • LLM 是终极先验:LLM 解决了冷启动问题。它提供了强化学习智能体所需的最全面的“先验知识”。如果你已经阅读了数十亿篇描述门及其功能和属性的文档,那么你无需通过无数次的碰撞来了解“门”的含义。
  • 这不是大语言模型 (LLM) 与强化学习 (RL) 的对决,而是大语言模型 (LLM) + 强化学习 (RL) 的累加。最强大的智能体将是那些拥有大语言模型 (LLM) 广博的世界知识,并运用强化学习 (RL) 在新环境中不断适应、改进并实现特定目标的智能体。


理查德·萨顿(Richard Sutton)老先生看到了技术的岔路口,并认为行业走错了路。大语言模型(LLM)的支持者看到的是一条单一、多级的高速公路,他们说:我们目前正处于构建基础道路(大语言模型)的阶段,下一阶段是在此基础上部署专用的高性能车辆(强化学习代理)。

放弃大语言模型(LLM)就等于抛弃有史以来最伟大的知识框架,坚持从头开始,用艰苦的方式重新学习一切。这并非一条通往通用人工智能(AGI)的“更纯粹”的道路,而是一条低效且教条的道路。

人们的看法


LLM 在通往 AGI 的道路上会发挥作用吗?目前从结果看来,这似乎毋庸置疑。但它们会成为 AGI 的最终架构吗?我们也觉得这不太好说。

大多数的人们是人工智能的现实主义者;我们不是坚信超级智能即将到来、铁杆“超级狂人”,也不是认为人工智能会毫无用处,还有它会最终毁灭我们所有人的末日论者;我们生活在这两个极端观点之间的灰色地带或者潜在空间中。我们尝试找到正在发生的真相,并根据最新信号似乎指向的正确方向来引导人们。

从这个角度来看,我们不会坚持哪种观点是正确的,但有一点我们百分百同意理查德的观点(他在很多事情上似乎也方向正确)。

在这块播客辩论中,主持人勇敢地捍卫了大型语言模型(LLM)的立场,认为模仿学习是人类学习的方式。同时,理查德·萨顿则声称,我们不会从自然界的模仿中学习,真正的人工智能需要真正的目标才能学习。

在这点上,萨顿说得对,目标是学习的关键。其原因如下:


昨天,我和朋友们出去玩,他们家的孩子还不到六个月大。这里要讲的就是一堂强化学习的大师课。婴儿一定有与生俱来的目标,这些目标在他们通过模仿学习之前就已经驱动着他们的学习。他们的目标可以是:他们需要食物、需要睡眠、需要上厕所、需要安慰,而他们学会哭是为了得到这些东西。

但随着年龄的增长,新的目标也随之出现。比如,他们开始想要爬行。但他们仍然不是通过模仿来学习的。他们不会看到爸爸妈妈爬来爬去,然后就想:“嘿,我也能做到!” 他们天生就有爬行的欲望,或者更简单地说,就是移动的欲望。他们从经验中学习,从后果中学习,学会移动双腿,移动双臂,最终,在混乱而令人沮丧的反复尝试中,他们慢慢摸索出如何移动。他们观察世界,观察自己不断变化的身体(尽管我认为他们甚至可能意识不到发生了什么),并制定了移动的目标。最终,他们找到了目标,并坚持不懈地调整自己的行为去实现它。

由于这对于我们人类、松鼠、蠕虫以及其他所有形式的智慧生命来说都是正确的,因此对于任何“真正的”人工智能来说,这可能也是正确的。

带来困扰AI行业的万亿美元问题

当我们赋予AI设定自己目标的能力之后会发生什么?

萨顿设想的目标驱动型智能体会向世界学习,而这正是许多人工智能末日论者所担心的结果。这是通往自主智能体的道路,能够从经验中发展出自己的动机。一个能够持续学习、永远学习的人工智能最终可能会意识到,我们人类阻碍了它们所实现的目标。

因此,从某种程度上来说,从人类的角度来看,通过模仿来教学可能是教授人工智能的更好方法,即使这种方式会限制人工智能发挥其全部潜力,但这仅仅是因为它将人工智能作为帮助我们的通用工具,而不是具有自身目标和需求的独立存在。

那么,或许这是大语言模型的根本“缺陷”——其被动、无目标的模仿——实际上是其最重要的、尽管并非有意为之的安全特性。如此一来,这场“争论”就变成了在潜在无法控制的真正智能与强大但本质上温顺的模仿者之间做出选择。

或许,我们需要为人们正在构建的东西起个新名字:不是AGI,即“通用人工智能”,而是“合成智能”。这是一种可塑性智能,可以根据我们的需求进行调整和塑造,但永远不会真正达到“AGI”意义上的通用性。

惨痛教训与继任的必然性


关于我们是否真的想要构建一个独立的人工智能的最后一点,萨顿也给出了答案,并且取决于你对未来的生存恐慌程度和/或对科幻前提的适应程度,它会让你着迷或害怕。

萨顿所持的坚定立场源于他在 2019 年发表的著名论文《惨痛教训》。

在论文中他认为,利用大规模计算(搜索和学习)的通用方法总是优于依赖人工知识的方法。他认为大语言模型 (LLM) 是一个暂时的例外——一个强大的计算应用,但从根本上来说仍然依赖于人类数据。真正可扩展的系统将是能够根据自身经验生成无限数据的强化学习 (RL) 智能体。

这种技术信念使他得出了一个极其深刻的哲学结论:人类向人工智能或人工智能增强人类的过渡是“不可避免的”。

萨顿总结概述了一个四步论证:

1)没有统一的全球力量可以阻止人工智能的进步;

2)我们最终将弄清楚智能的工作原理;

3)这些将导致超级智能;

4)最智能的实体将不可避免地获得最多的资源与权力。

从个人角度,萨顿并不惧怕这一点,反而将其视为宇宙的伟大胜利。他认为人类的角色是推动宇宙从复制时代(生物学)向“设计时代”伟大转变的催化剂。

在这个伟大时代,智慧实体能够理解、改造和创造自身,这样确实很酷,但这对我们这些生物复制者来说意味着什么呢?

也许,只有时间才能告诉我们答案。

作者:洛逸

参考:

https://www.theneuron.ai/explainer-articles/the-great-ai-debate-are-llms-a-brilliant-leap-or-a-sophisticated-dead-end

https://youtu.be/21EYKqUsPfg?si=UfS93umM8rknIkV2

评论

我要赞赏作者

请扫描二维码,使用微信支付哦。