迟到三年！翁荔万字长文复盘：彻底推翻大模型三年来的缩放定律认知

17611538698

info@21cto.com

登录注册

迟到三年！翁荔万字长文复盘：彻底推翻大模型三年来的缩放定律认知

场长

人工智能 0 21 1小时前

导读：前 OpenAI 安全研究副总裁，现思维机器实验室创始人翁荔，三年磨一剑，刚刚写了一篇缩放定律（Scaling Laws） “检讨书”。

在停更接近13个月后，AI界明星博主翁荔（Lilian Weng）宣布正式“回归”。

前OpenAI安全研究副总裁、现Thinking Machines Lab联合创始人兼首席科学家翁荔，在个人技术博客 Lil'Log 发布一篇万字技术文章：《Scaling Laws, Carefully》。

博客地址：
https://lilianweng.github.io/posts/2026-06-24-scaling-laws/

紧接着，她在X上发贴，开始推广自己的博客文章。

她在贴子上说道，这篇文章迟到了三年多。于是，通读全文后我们发现，这三年的等待是有价值的。

我们不妨先提下翁荔的学历背景，她是北京大学本科、印第安纳大学博士出身，从OpenAI普通研究员一路晋升至安全系统VP。

在2025年，她离职后联合一众OpenAI核心成员创办了思维机器实验室（Thinking Machines Lab）。

她的个人博客Lil'Log，是业内公认的“比多数学术论文更清晰易懂”的技术标杆，也是中文AI技术圈引用率最高的个人博客之一。

下面，我们就来梳理和分析她的这篇博客内容。

在这篇万字长文中，翁荔完成了一件极具颠覆性的事：完整复盘、拆解、推翻并重构了支撑全球AI数百亿投入的大模型缩放定律（Scaling Laws）。

翁荔描绘了从1992年Amari提出初代机器学习学习曲线，到2026年最新数据墙模型的完整演进脉络，最终得出一个让整个行业警醒的核心结论：

当下绝大多数大模型，都用错了参数量与训练数据的配比。

一、寻找源头：统治行业五年的GPT-3缩放定律

故事始于2020年。

OpenAI研究员Jared Kaplan发表经典论文，确立了此后数年主导大模型研发的Scaling Laws缩放定律，成为全球大模型训练的行业圣经。

论文核心结论非常简洁：在双对数坐标下，大模型训练损失，会随参数量（N）、数据量（D）、算力（C）的提升呈稳定幂律下降。

Kaplan提出了一套明确的资源分配逻辑：算力每提升10倍，模型参数量提升5.5倍即可，训练数据仅需提升1.8倍。

简单来说：模型要疯狂做大，数据缓慢跟进。

GPT-3正是这套理论的落地产物：1750亿参数，仅搭配3000亿训练Token，参数量规模是数据量的近6倍。此后数年，整个行业基本都沿用这套“重参数、轻数据”的训练思路。

二、反转：Chinchilla模型推翻行业共识

2022年，DeepMind研发团队带来了颠覆性的实验结论，彻底改写行业的认知。

Jordan Hoffmann团队以更大实验规模、更严谨的验证方法（三套互补拟合算法交叉验证，最大模型覆盖160亿参数），重复复刻缩放定律实验，得出了与OpenAI完全相反的结论。

团队将自家Gopher模型（2800亿参数、3000亿Token）与全新Chinchilla模型做对照：

Chinchilla仅为Gopher四分之一的参数量，却搭配了四倍以上的训练数据。最终结果一目了然：Chinchilla在所有评测维度全面碾压Gopher。

由此诞生更贴合真实规律的配比标准：模型参数翻倍，训练数据也应同步翻倍，最优参数与Token比例约为 1 : 20。

这也解释了后续Llama、DeepSeek等开源模型的逆袭逻辑：它们没有盲目照搬GPT-3超大参数模式，而是遵循更科学的参数、数据等比增长规律，因此小参数模型也能跑出更强性能。

三、Kaplan的理论到底错在哪？

行业长期存在着争议：两套截然相反的缩放定律，问题究竟出在哪里？翁荔在文章中用完整章节，拆解了初代理论的两大核心漏洞。

1. 实验规模局限，错误外推

Kaplan当年的实验最大模型只有15亿参数，却将小模型区间得出的规律，强行外推至千亿、万亿级大模型。在双对数坐标系中，小规模拟合的细微误差，经过多个数量级外推后，会被无限放大，形成系统性偏差。

2. 参数统计口径缺失

初代实验仅统计非嵌入层参数，刻意剔除了Embedding层参数。而在小模型中，Embedding参数占比极高，剔除后直接改变了参数量与算力、损失值的对应关系。

2024年多项后续研究证实：补全Embedding参数统计后，Kaplan的幂律指数会自动收敛至Chinchilla的结论。

简言之：Kaplan的结论并非完全错误，仅适用于极小模型局部区间，却被行业误当成了通用全局真理。

四、科研复刻翻车：Chinchilla论文亦存致命Bug

故事并未结束。

在2024年，Epoch AI团队完成了一次罕见的科研复盘：逐行复刻Chinchilla拟合代码，最终发现论文存在两处关键Bug，导致结论并不精准。

Bug 1：损失函数计算逻辑出错

实验对损失值取均值而非求和，导致损失数值整体偏小。优化器误判模型已收敛，提前终止迭代，未能找到真正的全局最优解。

Bug 2：核心指数精度丢失

论文将核心幂律指数α、β四舍五入保留两位小数，微小的精度误差经指数运算放大后，让拟合结果看起来极度显著、置信度极高，实则是数据假象。

修正Bug后，行业终于得到更真实、更精准的基准数值：α≈0.3478，β≈0.3658。两个指数高度接近，再次实锤核心结论：模型参数量与训练数据，必须保持同步等比增长。

五、最致命的行业天花板：2026年即将到来的数据墙

纠正完公式误差，翁荔抛出了更值得行业警惕的终极问题——数据墙（Data Wall）。

所有缩放定律的成立，都建立在一个理想前提下：高质量训练数据无限、无重复。

但现实极为残酷：行业预测，人类可产出的高质量独有文本数据，将在2026—2028年彻底耗尽。此后大模型训练，只能依赖存量数据反复复用。

而重复训练的边际收益，呈指数级衰减。

2023年行业提出「有效数据量」公式：同一数据反复训练，价值随重复次数快速递减。2026年最新研究进一步建模过拟合惩罚规律，同时证实：强权重衰减（weight decay），可以有效缓解重复训练带来的过拟合问题。

这意味着：单纯堆算力、堆参数的缩放时代，已经走到尽头。

六、核心启示：缩放定律不是物理真理，只是工程经验

为了让从业者直观感知误差来源，翁荔在博客中嵌入交互式模拟器，可自由调节拟合精度、噪声水平、拟合区间三大参数。

调试后可以清晰发现：看似微不足道的工程细节——损失值保留小数位数、千分之一量级的噪声波动、拟合区间的选取，都会导致最终外推结果天差地别。

整篇万字长文，最终凝练出一句价值千金的结论：

Scaling Laws 并非不可打破的物理定律，而是对工程细节极度敏感的观测性经验指南。

这也是翁荔沉淀了三年，想要告诉整个计算机和AI行业的一个真相。她还希望在一年后，还有人跟踪和总结这篇文章的成果。

作者：场长
参考：
https://lilianweng.github.io/posts/2026-06-24-scaling-laws

本篇文章为 @ 场长创作并授权 21CTO 发布，未经许可，请勿转载。

内容授权事宜请您联系 webmaster@21cto.com或关注 21CTO 微信公众号。

该文观点仅代表作者本人，21CTO 平台仅提供信息存储空间服务。

场长

标准用户

迟到三年！翁荔万字长文复盘：彻底推翻大模型三年来的缩放定律认知

一、寻找源头：统治行业五年的GPT-3缩放定律

二、反转：Chinchilla模型推翻行业共识

三、Kaplan的理论到底错在哪？

四、科研复刻翻车：Chinchilla论文亦存致命Bug

五、最致命的行业天花板：2026年即将到来的数据墙

六、核心启示：缩放定律不是物理真理，只是工程经验

评论

场长

最新文章

迟到三年！翁荔万字长文复盘：彻...

大型语言模型 vs 小型语言模型

Deno Desktop：使用 TypeScript...

高通 39 亿美元收购 Modular，补...

Block 推出 Builderbot：面向超...

Meta 的 AI 转型风暴：重组如何...

Anthropic 推出 Claude Tag：入...

面向 Ruby 开发者的 Go 语言学习...

Linus Torvalds 谈 Linux 内核中...

Anthropic报告称，Claude现在负...

我要赞赏作者

分享到微信