导读:前 OpenAI 安全研究副总裁,现思维机器实验室创始人翁荔,三年磨一剑,刚刚写了一篇缩放定律(Scaling Laws) “检讨书”。
在停更接近13个月后,AI界明星博主翁荔(Lilian Weng)宣布正式“回归”。
前OpenAI安全研究副总裁、现Thinking Machines Lab联合创始人兼首席科学家翁荔,在个人技术博客 Lil'Log 发布一篇万字技术文章:《Scaling Laws, Carefully》。
博客地址:
https://lilianweng.github.io/posts/2026-06-24-scaling-laws/
紧接着,她在X上发贴,开始推广自己的博客文章。
她在贴子上说道,这篇文章迟到了三年多。于是,通读全文后我们发现,这三年的等待是有价值的。
我们不妨先提下翁荔的学历背景,她是北京大学本科、印第安纳大学博士出身,从OpenAI普通研究员一路晋升至安全系统VP。
在2025年,她离职后联合一众OpenAI核心成员创办了思维机器实验室(Thinking Machines Lab)。
她的个人博客Lil'Log,是业内公认的“比多数学术论文更清晰易懂”的技术标杆,也是中文AI技术圈引用率最高的个人博客之一。
下面,我们就来梳理和分析她的这篇博客内容。
在这篇万字长文中,翁荔完成了一件极具颠覆性的事:完整复盘、拆解、推翻并重构了支撑全球AI数百亿投入的大模型缩放定律(Scaling Laws)。
翁荔描绘了从1992年Amari提出初代机器学习学习曲线,到2026年最新数据墙模型的完整演进脉络,最终得出一个让整个行业警醒的核心结论:
当下绝大多数大模型,都用错了参数量与训练数据的配比。
故事始于2020年。
OpenAI研究员Jared Kaplan发表经典论文,确立了此后数年主导大模型研发的Scaling Laws缩放定律,成为全球大模型训练的行业圣经。
论文核心结论非常简洁:在双对数坐标下,大模型训练损失,会随参数量(N)、数据量(D)、算力(C)的提升呈稳定幂律下降。
Kaplan提出了一套明确的资源分配逻辑:算力每提升10倍,模型参数量提升5.5倍即可,训练数据仅需提升1.8倍。
简单来说:模型要疯狂做大,数据缓慢跟进。
GPT-3正是这套理论的落地产物:1750亿参数,仅搭配3000亿训练Token,参数量规模是数据量的近6倍。此后数年,整个行业基本都沿用这套“重参数、轻数据”的训练思路。
2022年,DeepMind研发团队带来了颠覆性的实验结论,彻底改写行业的认知。
Jordan Hoffmann团队以更大实验规模、更严谨的验证方法(三套互补拟合算法交叉验证,最大模型覆盖160亿参数),重复复刻缩放定律实验,得出了与OpenAI完全相反的结论。
团队将自家Gopher模型(2800亿参数、3000亿Token)与全新Chinchilla模型做对照:
Chinchilla仅为Gopher四分之一的参数量,却搭配了四倍以上的训练数据。最终结果一目了然:Chinchilla在所有评测维度全面碾压Gopher。
由此诞生更贴合真实规律的配比标准:模型参数翻倍,训练数据也应同步翻倍,最优参数与Token比例约为 1 : 20。
这也解释了后续Llama、DeepSeek等开源模型的逆袭逻辑:它们没有盲目照搬GPT-3超大参数模式,而是遵循更科学的参数、数据等比增长规律,因此小参数模型也能跑出更强性能。
行业长期存在着争议:两套截然相反的缩放定律,问题究竟出在哪里?翁荔在文章中用完整章节,拆解了初代理论的两大核心漏洞。
1. 实验规模局限,错误外推
Kaplan当年的实验最大模型只有15亿参数,却将小模型区间得出的规律,强行外推至千亿、万亿级大模型。在双对数坐标系中,小规模拟合的细微误差,经过多个数量级外推后,会被无限放大,形成系统性偏差。
2. 参数统计口径缺失
初代实验仅统计非嵌入层参数,刻意剔除了Embedding层参数。而在小模型中,Embedding参数占比极高,剔除后直接改变了参数量与算力、损失值的对应关系。
2024年多项后续研究证实:补全Embedding参数统计后,Kaplan的幂律指数会自动收敛至Chinchilla的结论。
简言之:Kaplan的结论并非完全错误,仅适用于极小模型局部区间,却被行业误当成了通用全局真理。
故事并未结束。
在2024年,Epoch AI团队完成了一次罕见的科研复盘:逐行复刻Chinchilla拟合代码,最终发现论文存在两处关键Bug,导致结论并不精准。
Bug 1:损失函数计算逻辑出错
实验对损失值取均值而非求和,导致损失数值整体偏小。优化器误判模型已收敛,提前终止迭代,未能找到真正的全局最优解。
Bug 2:核心指数精度丢失
论文将核心幂律指数α、β四舍五入保留两位小数,微小的精度误差经指数运算放大后,让拟合结果看起来极度显著、置信度极高,实则是数据假象。
修正Bug后,行业终于得到更真实、更精准的基准数值:α≈0.3478,β≈0.3658。两个指数高度接近,再次实锤核心结论:模型参数量与训练数据,必须保持同步等比增长。
纠正完公式误差,翁荔抛出了更值得行业警惕的终极问题——数据墙(Data Wall)。
所有缩放定律的成立,都建立在一个理想前提下:高质量训练数据无限、无重复。
但现实极为残酷:行业预测,人类可产出的高质量独有文本数据,将在2026—2028年彻底耗尽。此后大模型训练,只能依赖存量数据反复复用。
而重复训练的边际收益,呈指数级衰减。
2023年行业提出「有效数据量」公式:同一数据反复训练,价值随重复次数快速递减。2026年最新研究进一步建模过拟合惩罚规律,同时证实:强权重衰减(weight decay),可以有效缓解重复训练带来的过拟合问题。
这意味着:单纯堆算力、堆参数的缩放时代,已经走到尽头。
为了让从业者直观感知误差来源,翁荔在博客中嵌入交互式模拟器,可自由调节拟合精度、噪声水平、拟合区间三大参数。
调试后可以清晰发现:看似微不足道的工程细节——损失值保留小数位数、千分之一量级的噪声波动、拟合区间的选取,都会导致最终外推结果天差地别。
整篇万字长文,最终凝练出一句价值千金的结论:
Scaling Laws 并非不可打破的物理定律,而是对工程细节极度敏感的观测性经验指南。
这也是翁荔沉淀了三年,想要告诉整个计算机和AI行业的一个真相。她还希望在一年后,还有人跟踪和总结这篇文章的成果。
作者:场长
参考:
https://lilianweng.github.io/posts/2026-06-24-scaling-laws
本篇文章为 @ 场长 创作并授权 21CTO 发布,未经许可,请勿转载。
内容授权事宜请您联系 webmaster@21cto.com或关注 21CTO 微信公众号。
该文观点仅代表作者本人,21CTO 平台仅提供信息存储空间服务。
请扫描二维码,使用微信支付哦。