17611538698
info@21cto.com

大型语言模型 vs 小型语言模型

人工智能 0 27 1小时前
图片

导读:本文以苹果技术体系讲解大语言模型(LLM)与小型语言模型(SLM )的相关异同点。

苹果公司的人工智能产品能够在iPhone上运行,仅占用约1GB内存。然而该公司在其云服务器上运行着一个规模更大的模型,这两种模型名称中都包含“Transformer”一词,但在架构选择上却有所不同。

同样的划分也出现在谷歌、微软和 Meta 等科技公司,其中一类小型语言模型(SLM)针对设备,另一类大型语言模型(LLM)则针对的是数据中心。

小型语言模型和大型语言模型是对不同约束条件的不同工程响应,其差异始于每个模型的运行位置、目标硬件以及训练方式。

在本文中将通过三层模型设计来探讨这些限制,研究每种方法带来的权衡,并研究结合小型和大型模型的生产级系统。

模型基础


在探讨这两个类别有何不同之前,先明确它们的相同之处会对用户有哪些帮助。


无论是小语言模型还是大语言模型,都是基于Transformer的解码器模型,都由多层堆叠的相同基本计算模块构成。每个模块都执行注意力操作,找出哪些先前的词元对预测下一个词元最为重要,然后进行前反馈计算,再将这些信息通过一个宽广的中间层进行混合。

大模型会重复执行此模块三十次或更多次,最终生成下一个词元的概率分布。

图片


这两类模型都经历相类似的训练阶段。

它们首先在大型文本语料库上进行预训练,模型通过数十亿个示例来学习预测下一个词元。接下来,通常会进行基于特定指令模式的监督式微调,许多模型还会通过人类反馈进行强化学习,从而改进模型处理歧义的方式,使其在对话中保持有效性。

模型的大小指的是其参数的数量,这些参数是在训练过程中学习并调整的权重。到了如今的2026年,一个小型模型通常拥有5亿到140亿个参数。一个大型模型则拥有数百亿到数千亿个参数,甚至更多。

约束条件


三个限制因素使得小模型和大模型的设计正朝着相反的方向发展。


  • 部署目标:模型的运行位置决定了其内存、电池和延迟预算。

  • 推断经济学:训练只需支付一次费用,但服务却按请求付费,这在规模化后会使计算方式颠倒过来。

  • 培训预算:较小的预算促使团队通过提高数据质量和提炼效率来提高效率,而不是追求单纯的规模。


部署目标决定了后续的一切。

运行在手机上的模型,其内存预算以千兆字节计,电池预算以毫安计,延迟预算以毫秒计。而运行在数据中心中的模型,其运行环境则更为宽松,需要考虑吞吐量、批处理效率和单次请求成本,但其资源上限要高出几个数量级。

推断经济学是第二个压力点。

模型训练是一次性成本,在模型生命周期开始时支付;而模型运行则是持续性成本,每次有人使用模型时都需要支付。对于高流量产品而言,推理成本很快就会远超训练成本。因此,设计高推理量模型的团队会乐于在前期投入更多计算资源进行训练,以节省下游数十亿次请求的推理计算成本。

训练预算是第三个压力来源。

训练一个前沿的大模型需要花费数千万美元甚至更多,而大多数从事小型模型开发的团队预算仅为其一小部分,有限的预算迫使他们做出选择。这些团队必须寻找除规模之外的其他方法,这通常意味着使用更智能的训练数据、从大型教师模型中提炼有效信息以及采用更高效的训练策略。

这三个约束条件相互强化,并非孤立存在。专为手机设计的模型每次请求的推理预算较小,训练预算通常也较少;而专为数据中心设计的模型则在所有三个维度上都呈现出相反的特点。其结果是在同一空间中形成了两个截然不同的设计区域。

图片


架构学


两种模型的架构差异首先要从推理方面观察。


在生成过程中,模型必须保留每个先前标记的键/值对,因为注意力机制的工作原理是将当前标记与所有先前的标记进行比较。这个存储的集合称为键值缓存(KV缓存),其大小随对话长度线性增长。对于长时间的迭代,缓存通常会比参数本身占用更多的内存带宽和存储空间。

这一事实决定了小型语言模型架构的设计方式。

在最初的Transformer设计中,每个注意力头都有自己的键和值,这种结构称为多头注意力。对于较长的序列,由此产生的缓存占用空间会变得非常大,以至于占据模型内存消耗的大部分。

分组查询注意力机制直接解决了这个问题。查询头的数量保持不变,但多个查询共享同一个键值对。一个拥有 32 个查询头的模型可能只需要 8 个键值组,这样就能在质量损失极小的情况下将缓存占用减少四分之三。

Llama、Qwen、Gemma 和大多数现代小型语言模型默认使用分组查询注意力机制,许多大型语言模型也采用了这种机制,因为它的数学特性也有利于大规模应用。

一些小型模型更更进一步。

Gemma 2 将滑动窗口注意力机制与全注意力机制交错部署在各个层级,因此某些层级只关注最近的几千个词元,而不是完整的上下文。这牺牲了一些长远推理能力,换取了更小的缓存。

苹果的设备端模型在多个解码器层级共享其键值缓存,在多个地方重用相同的存储状态。

图片


这些架构决策都服务于同一个目标,即减少推理的运行时成本,而当模型必须在只有几GB内存的设备上运行时,运行时成本是最为重要的限制因素。


关于训练


架构相同的两个模型,若由于训练内容和训练方式的不同,最终可能具备截然不同的能力。


三种技术定义了目前小模型训练的最新水平:

  • 数据整理:精心挑选和合成生成的训练数据可以替代原始数据量。

  • 知识蒸馏:较小的学生模型从较大的教师模型的分布输出中学习。

  • 过拟合:现代小型模型看到的训练标记远多于计算最优比例所建议的,以训练成本换取推理成本的节省。


第一种方法是数据整理与标注。

2023年,微软研究院的一个团队发表了一篇题为《教科书是你需要的全部》(Textbooks Are All You Need)的论文。

他们使用大约70亿个经过精心筛选的代码标签和合成生成的教科书风格数据,训练了一个包含13亿个参数的编码模型。该模型的性能与使用数千亿个原始网络抓取标记训练的模型相当甚至更胜一筹。训练数据的质量可以替代训练数据的数量,至少对于某些功能而言是如此。Phi系列模型在此基础上不断发展,而现代的Phi-4模型仍然高度依赖合成数据的质量作为其主要驱动力。

第二种方法是知识提炼。

这个被称为“学生”的小型模型,通过模仿“教师”的输出分布而非仅仅从原始文本中学习,向一个被称为“教师”的大型模型学习。更丰富的训练信号有助于学生捕捉到仅凭底层语料库难以学习到的模式。Gemma 2 便是使用这种方法训练了其 90 亿参数的模型,而其 270 亿参数的版本则是从零开始训练的。

第三种技术是相对于计算最优的过度训练。

2022 年,DeepMind 的 Chinchilla 论文指出,在计算预算固定的情况下,最佳模型是通过平衡参数数量和训练数据量实现的,大约每个参数需要 20 个训练数据标记 (token)。现代小型模型刻意使用远超此比例的数据量进行训练。一个拥有 30 亿个参数的模型在训练过程中可能会遇到数万亿个数据标记,这比 Chinchilla 论文中的最优值高出许多倍。模型部署后,质量每提升一个百分点,就能在数十亿次请求中节省推理计算资源,因此团队会投入更多资源进行训练,以节省更多的服务成本。

图片


部署方式


这是设计方案的最后一层,它决定了模型如何在实际硬件上执行。


有两种主要技术用来量化和键值缓存管理。量化可以降低每个参数的存储成本,而键值缓存管理可以降低生成操作的运行时成本。


量化是指用更少的字节位来存储每个参数。标准的预训练模型将每个参数存储为一个 16 位浮点数,将其减少到 8 位可使内存占用减半,减少到 4 位则可使内存占用再减半。后训练方法实现起来更快,但在字节位较窄的情况下往往会损失模型质量,而量化感知训练则可以在保证模型质量的前提下,增加训练的复杂性。

图片


硬件映射是下一个要考虑的因素。

苹果的神经网络引擎与NVIDIA Jetson的特点有所不同,而NVIDIA Jetson的优势又与数据中心级的H100有所不同,因此模型设计会根据目标硬件进行调整。Phi-4-mini针对消费级GPU进行了优化。Gemma 3 4B系列模型运行在NVIDIA Jetson Orin上,用于机器人和嵌入式系统等边缘AI部署。苹果的3B模型运行在iPhone的神经网络引擎上,前提是该设备同时还要处理其他工作负载。

键值缓存管理是第二个关键因素,它与架构部分直接相关。缓存存储生成过程中每个先前标记的键值对,其大小决定了模型在运行时使用的内存量。分组查询注意力机制通过减少键值头的数量来解决这个问题,而苹果的设备端模型更进一步,在多个解码器层之间共享缓存。

图片


这些部署建立在之前所有决策之上。缩小键值缓存的架构选择使得量化更容易,而那些能够生成性能优异的小型模型的训练方案,也使得模型能够经受住高强度的压缩。

权衡取舍


小型模型在 MMLU 和 HumanEval 等标准基准测试中表现良好。生产环境中的应用则更为多样化。以下三个差距尤为重要:


  • 泛化差距:小模型在其训练分布之外的泛化能力较弱。

  • 推理差距:多步骤问题仍然更有利于较大的模型,尽管差距正在缩小。

  • 知识上限:参数起到内存的作用,因此小型模型能够存储的信息量存在硬性限制。


第一个差距是概括性问题。

小型模型在训练分布之外往往更脆弱,它们可能擅长处理与训练内容相似的任务,但在意料之外的任务上却表现不佳。例如,一个主要用代码训练的小型模型在处理代码方面表现出色,但在处理风格独特的创意写作时可能力不从心。又如,一个用合成教科书数据训练的模型在处理教科书式的问题时表现出色,但在处理真实用户发送的混乱、模糊的提示时则可能表现不佳。

第二个差距是多步骤推理。

对于需要跨多个词元进行链式推理的问题,大型模型仍然具有明显的优势。尽管逐步推理技术和以推理为中心的微调技术正在缩小这种差距,但在参数数量非常少的情况下,模型的性能上限仍然存在。Phi-4 在数学推理方面表现出色,这主要归功于微软通过训练数据设计针对该能力进行了优化,而通用小型模型通常会展现出更明显的差距。

第三个差距是世界知识。

参数更大的模型可以存储更多事实、更多命名实体、更多晦涩的引用以及更广泛的多语言覆盖。小型模型的知识容量存在根本性的上限,因为存储需要参数,而参数又需要内存。对于需要广泛事实记忆的应用,小型模型通常会与外部知识库配合使用,在需要时查询外部知识库,因为试图将所有知识都塞进参数本身会使模型超出其容量限制。

混合模型


2026年最有趣的设计问题很少是选择哪种模型。


更有价值的问题是如何将多种模型组合成一个系统,使每种模型都能发挥其最佳功能。大多数生产环境中都会出现以下三种模式。


  • 路由:小型模型直接处理请求,并将更复杂的请求升级到大型模型。

  • 护栏:小型模型过滤大型模型核心工作周围的输入或输出。

  • 绘图者:一个小型快速模型生成候选令牌,然后由一个大型模型批量验证这些候选令牌。


最常见的模式是路由。

如果请求在其能力范围之内,则由小型模型直接处理;如果请求难度超出其处理能力,则会升级到大型模型。这种模式类似于分布式系统中的缓存层,其中快速、低成本的层处理常见情况,而速度较慢、成本较高的层处理其余情况。路由器本身通常是一个小型分类器模型,用于决定要走哪条路径。

第二种模式是护栏。

在大型模型运行之前,通常会有一个小型模型来过滤或分类输入,以检查是否存在不安全内容、判断请求意图或移除不应保密的信息。第二个小型模型通常位于输出端,在将响应返回给用户之前执行类似的检查。这些防护模型成本低、速度快且功能专一,因此非常适合用于此用途。

第三种模式是绘图者,有时也被称为推测性解码。

一个小型快速模型生成候选令牌,而一个更大、功能更强大的模型则批量验证这些候选令牌。当验证结果一致时,系统就能以小型模型的吞吐量和大型模型的质量完成验证。苹果的设备端系统正是出于这个原因,在其基础模型之外还使用了一个草稿模型。这种技术听起来像是一种权宜之计,但它已经成为生产推理系统的标准做法。

对于大多数产品决策而言,选择一个模型类是错误的框架,而围绕多个模型类设计系统才是正确的框架,而真正有趣的设计工作则体现在组合层、路由逻辑、回退行为以及模型之间的协调等方面。

图片


结语


我们最初提出的问题是“小型语言模型与大型语言模型”,但更有意义的问题是“哪些约束条件驱动了每个模型的设计”。


模型的大小是这些约束条件的最终结果,而不是设计的出发点。


由这些限制条件衍生出三层设计选择:

  • 架构通过分组查询和滑动窗口注意力等注意力变体进行调整,从而缩小 KV 缓存。

  • 训练通过高质量的合成数据、从更大的教师群体中提炼以及相对于计算最优比例的刻意过度训练来进行适应。

  • 部署通过量化、键值缓存管理和精细的硬件映射来实现自适应。每一层都强化其他层,最终在同一空间内形成两个截然不同的设计区域。


小型语言模型虽体积小巧,但功能依然强大,只是在泛化能力、多步骤推理能力和广泛的世界知识方面存在一定的局限性。

生产系统通过组合小型和大型模型来解决这个问题:使用小型模型处理常见情况,使用大型模型处理更复杂的需求;有时还会使用多个小型模型作为路由、护栏和草图绘制器,围绕一个更大的核心模型进行构建。

对于需要在不同模型之间进行选择的工程师来说,正确的出发点应该是约束条件,而不是基准测试结果。

真正重要的问题在于部署目标、推理预算以及生产环境中的请求分布情况。

免责声明:本文内容基于多个公开渠道的信息。若有任何不准确之处,欢迎留言。(参考:https://blog.bytebytego.com/p/large-language-models-vs-small-language)

作者:场长

评论

我要赞赏作者

请扫描二维码,使用微信支付哦。

分享到微信