17611538698
info@21cto.com

迟到三年!翁荔万字长文复盘:彻底推翻大模型三年来的缩放定律认知

人工智能 0 21 1小时前
图片

导读:前 OpenAI 安全研究副总裁,现思维机器实验室创始人翁荔,三年磨一剑,刚刚写了一篇缩放定律(Scaling Laws) “检讨书”。

在停更接近13个月后,AI界明星博主翁荔(Lilian Weng)宣布正式“回归”。

前OpenAI安全研究副总裁、现Thinking Machines Lab联合创始人兼首席科学家翁荔,在个人技术博客 Lil'Log 发布一篇万字技术文章:《Scaling Laws, Carefully》。

博客地址:

https://lilianweng.github.io/posts/2026-06-24-scaling-laws/

紧接着,她在X上发贴,开始推广自己的博客文章。

图片

她在贴子上说道,这篇文章迟到了三年多。于是,通读全文后我们发现,这三年的等待是有价值的。

我们不妨先提下翁荔的学历背景,她是北京大学本科、印第安纳大学博士出身,从OpenAI普通研究员一路晋升至安全系统VP。

在2025年,她离职后联合一众OpenAI核心成员创办了思维机器实验室(Thinking Machines Lab)。

她的个人博客Lil'Log,是业内公认的“比多数学术论文更清晰易懂”的技术标杆,也是中文AI技术圈引用率最高的个人博客之一。

下面,我们就来梳理和分析她的这篇博客内容。

在这篇万字长文中,翁荔完成了一件极具颠覆性的事:完整复盘、拆解、推翻并重构了支撑全球AI数百亿投入的大模型缩放定律(Scaling Laws)

翁荔描绘了从1992年Amari提出初代机器学习学习曲线,到2026年最新数据墙模型的完整演进脉络,最终得出一个让整个行业警醒的核心结论:

当下绝大多数大模型,都用错了参数量与训练数据的配比。

图片

一、寻找源头:统治行业五年的GPT-3缩放定律


故事始于2020年。

OpenAI研究员Jared Kaplan发表经典论文,确立了此后数年主导大模型研发的Scaling Laws缩放定律,成为全球大模型训练的行业圣经。

论文核心结论非常简洁:在双对数坐标下,大模型训练损失,会随参数量(N)、数据量(D)、算力(C)的提升呈稳定幂律下降。

Kaplan提出了一套明确的资源分配逻辑:算力每提升10倍,模型参数量提升5.5倍即可,训练数据仅需提升1.8倍

简单来说:模型要疯狂做大,数据缓慢跟进

GPT-3正是这套理论的落地产物:1750亿参数,仅搭配3000亿训练Token,参数量规模是数据量的近6倍。此后数年,整个行业基本都沿用这套“重参数、轻数据”的训练思路。

二、反转:Chinchilla模型推翻行业共识


2022年,DeepMind研发团队带来了颠覆性的实验结论,彻底改写行业的认知。

Jordan Hoffmann团队以更大实验规模、更严谨的验证方法(三套互补拟合算法交叉验证,最大模型覆盖160亿参数),重复复刻缩放定律实验,得出了与OpenAI完全相反的结论

团队将自家Gopher模型(2800亿参数、3000亿Token)与全新Chinchilla模型做对照:

Chinchilla仅为Gopher四分之一的参数量,却搭配了四倍以上的训练数据。最终结果一目了然:Chinchilla在所有评测维度全面碾压Gopher

由此诞生更贴合真实规律的配比标准:模型参数翻倍,训练数据也应同步翻倍,最优参数与Token比例约为 1 : 20

这也解释了后续Llama、DeepSeek等开源模型的逆袭逻辑:它们没有盲目照搬GPT-3超大参数模式,而是遵循更科学的参数、数据等比增长规律,因此小参数模型也能跑出更强性能。

配图

三、Kaplan的理论到底错在哪?


行业长期存在着争议:两套截然相反的缩放定律,问题究竟出在哪里?翁荔在文章中用完整章节,拆解了初代理论的两大核心漏洞。

1. 实验规模局限,错误外推

Kaplan当年的实验最大模型只有15亿参数,却将小模型区间得出的规律,强行外推至千亿、万亿级大模型。在双对数坐标系中,小规模拟合的细微误差,经过多个数量级外推后,会被无限放大,形成系统性偏差。

2. 参数统计口径缺失

初代实验仅统计非嵌入层参数,刻意剔除了Embedding层参数。而在小模型中,Embedding参数占比极高,剔除后直接改变了参数量与算力、损失值的对应关系。

2024年多项后续研究证实:补全Embedding参数统计后,Kaplan的幂律指数会自动收敛至Chinchilla的结论。

简言之:Kaplan的结论并非完全错误,仅适用于极小模型局部区间,却被行业误当成了通用全局真理。

四、科研复刻翻车:Chinchilla论文亦存致命Bug


故事并未结束。

在2024年,Epoch AI团队完成了一次罕见的科研复盘:逐行复刻Chinchilla拟合代码,最终发现论文存在两处关键Bug,导致结论并不精准。

Bug 1:损失函数计算逻辑出错

实验对损失值取均值而非求和,导致损失数值整体偏小。优化器误判模型已收敛,提前终止迭代,未能找到真正的全局最优解。

Bug 2:核心指数精度丢失

论文将核心幂律指数α、β四舍五入保留两位小数,微小的精度误差经指数运算放大后,让拟合结果看起来极度显著、置信度极高,实则是数据假象。

修正Bug后,行业终于得到更真实、更精准的基准数值:α≈0.3478,β≈0.3658。两个指数高度接近,再次实锤核心结论:模型参数量与训练数据,必须保持同步等比增长

五、最致命的行业天花板:2026年即将到来的数据墙


纠正完公式误差,翁荔抛出了更值得行业警惕的终极问题——数据墙(Data Wall)

所有缩放定律的成立,都建立在一个理想前提下:高质量训练数据无限、无重复

但现实极为残酷:行业预测,人类可产出的高质量独有文本数据,将在2026—2028年彻底耗尽。此后大模型训练,只能依赖存量数据反复复用。

而重复训练的边际收益,呈指数级衰减

2023年行业提出「有效数据量」公式:同一数据反复训练,价值随重复次数快速递减。2026年最新研究进一步建模过拟合惩罚规律,同时证实:强权重衰减(weight decay),可以有效缓解重复训练带来的过拟合问题。

图片

这意味着:单纯堆算力、堆参数的缩放时代,已经走到尽头。

六、核心启示:缩放定律不是物理真理,只是工程经验


为了让从业者直观感知误差来源,翁荔在博客中嵌入交互式模拟器,可自由调节拟合精度、噪声水平、拟合区间三大参数。

调试后可以清晰发现:看似微不足道的工程细节——损失值保留小数位数、千分之一量级的噪声波动、拟合区间的选取,都会导致最终外推结果天差地别。

整篇万字长文,最终凝练出一句价值千金的结论:

Scaling Laws 并非不可打破的物理定律,而是对工程细节极度敏感的观测性经验指南。

这也是翁荔沉淀了三年,想要告诉整个计算机和AI行业的一个真相。她还希望在一年后,还有人跟踪和总结这篇文章的成果。

作者:场长

参考:

https://lilianweng.github.io/posts/2026-06-24-scaling-laws

评论

我要赞赏作者

请扫描二维码,使用微信支付哦。

分享到微信