MIT 华人博士加入前OpenAI CTO的思考机器实验室，年薪超300万

导读：MIT华人博士，清华学士肖光烜宣布，正式加盟Thinking Machines，主攻大模型预训练。

近期，一位华人麻省理工大学（MIT）博士，名字叫做肖光烜（Guangxuan Xiao），被前OpenAI的首席技术官米拉·穆拉蒂（Mira Murati）所创立的Think Machines (思考机器实验室)看中，刚一毕业就被邀请到了这家人工智能公司，从事大语言模型的预训练工作。

以下，是他在X平台上的公告帖。

在公告帖的评论区下方，一众好友与粉丝纷纷前来祝贺，这包括英伟达科学家、xAI研究员、UCSD等知名人士。

清华双学位学霸，MIT博士的开挂人生

肖光烜的本科毕业于清华大学。他拿到了双学位，主修专业是计算机科学，辅修金融学学位。

在校期间，他获得了清华大学综合优秀奖学金（2019）、全国大学生数学建模竞赛（CUMCM）一等奖（2020）、国家奖学金（2020）、清华大学「未来学者」奖学金（2021）等多项奖项。

他于2020–2021年作为访问生，前往美国斯坦福大学计算机系开展科研工作。

2022年，肖光烜加入MIT攻读博士学位，导师为知名的韩松（Song Han）教授。

肖光烜个人研究方向聚焦于：深度学习的高效算法与系统，尤其是大规模基础模型（Foundation Model）。

他在2022年9月至2026年1月，在MIT EECS担任全职研究助理（Research Assistant）。

读博期间，肖光烜曾多次进入全球顶级科技大厂从事前沿研究实习，具备了丰富的一线工业研发的经验。

2023年，他曾加入Meta实习，研究方向为“流式语言模型的高效注意力机制”，相关成果已经发表在arxiv上。

2024年2-5月期间，他作为英伟达实习生，研究方向是为长上下文大语言模型推理加速。

他和团队提出了DuoAttention，结合检索与流式注意力头，实现高效推理。

随后，他又参与了多项核心研究项目，其中包括：
XAttention：基于反对角评分的块稀疏注意力机制
StreamingVLM：面向无限视频流的实时理解模型
FlashMoBA：混合块注意力（Mixture of Block Attention）的高效优化

丰富多彩的爱好

值得一提的是，肖光烜在研究技术之外，还有着丰富的兴趣爱好，比如足球、乒乓球、围棋、钢琴。

他曾担任所在院系足球队的队长兼先锋，贝多芬的钢琴作品是个人最爱。

一篇博士论文，破解LLM三大难题

相比光鲜的简历，肖光烜的博士论文非常值得人们深入研析与拆解。

如今大模型已经快无所不能，但它们的训练成本依然非常昂贵。

比如显存爆炸、推理缓慢、长上下文直接OOM（内存溢出），这是几乎所有LLM工程团队每天都要面对的现实。

肖光烜和团队的《Efficient Algorithms and Systems for Large Language Models》这篇论文，给出了一个罕见的、从工程到理论、从算法到架构的完整答案。

论文中，他们提出了SmoothQuant，解决了一个长期困扰工业界的问题——激活值异常（activation outliers）。

SmoothQuant通过一个巧妙的数学等价变换，把量化难点从“激活”转移到“权重”。

结果，它实现了首个在十亿级模型上W8A8无损量化，无需重新训练，显存更小、推理更快。

针对超长序列的处理，作者在StreamingLLM中发现了“注意力汇点”（attention sink）现象——即使没有任何语义，初始token会被后续token持续关注。这些token的作用不是“理解”，而是数值稳定。

结果，实现了常数内存的流式推理，模型上下文长度从数千token扩展到百万级。

更进一步，他们又把这一思想推广到多模态，StreamingVLM可以在保持时间一致性的同时处理长达数小时的视频内容。

对于超长上下文场景，团队又提出一个互补方案，分别针对不同的性能瓶颈。

KVCache太大，采用DuoAttention。注意力头本身就有分工：少数负责“全局检索”，多数只看“最近上下文”。

DuoAttention用混合策略，大幅降低显存，却几乎不掉性能。

预填充（Prefill）太慢，采用XAttention。利用反对角线评分机制，仅识别、计算必要的注意力块，从而实现显著的加速效果。

论文的最后，并没有止步于“优化现有模型”，通过对MoBA（块混合注意力）的信噪比分析，作者证明了：理论上，block越小越好。

但现实是GPU不答应，于是有了FlashMoBA，一种定制化的CUDA内核，使小块架构在实践中可行，并实现了最高可达9倍的速度提升。

这篇论文的价值在于，构建了一整套高效大模型的完整框架，既回应了当下的现实挑战，也为下一代计算高效、普惠可及的AGI奠定了基础。

350万年薪，赢在新起点

去年硅谷的人工智能人才争夺战异常激烈，而前OpenAI的CTO创立的Thinking Machines（思考机器实验室，简称TML）给员工们开出的薪资，基础年薪高达50万美元（约350万元人民币）。

TML向前两名技术员工支付了45万美元的基础年薪，另一名员工的年薪则高达50万美元。第四名员工被列为联合创始人/机器学习专家，其年薪同样为45万美元。

总体来看，TML为这四名技术员工提供的平均年薪达到462500美元。此薪资水平在硅谷来说也是数一数二。

作者：场长
参考：
https://guangxuanx.com/
https://x.com/Guangxuan_Xiao/status/2008779396497502337

本篇文章为 @ 行动的大雄创作并授权 21CTO 发布，未经许可，请勿转载。

内容授权事宜请您联系 webmaster@21cto.com或关注 21CTO 微信公众号。

该文观点仅代表作者本人，21CTO 平台仅提供信息存储空间服务。

马斯克爆猛料：10 年内上班全自...

03月02日

MIT 华人博士加入前OpenAI CTO的思考机器实验室，年薪超300万

清华双学位学霸，MIT博士的开挂人生

肖光烜的本科毕业于清华大学。他拿到了双学位，主修专业是计算机科学，辅修金融学学位。

在校期间，他获得了清华大学综合优秀奖学金（2019）、全国大学生数学建模竞赛（CUMCM）一等奖（2020）、国家奖学金（2020）、清华大学「未来学者」奖学金（2021）等多项奖项。

一篇博士论文，破解LLM三大难题

350万年薪，赢在新起点

评论

行动的大雄

最新文章

设计流程已死：Anthropic 设计负...

AI 技术浪潮下，OpenClaw创始人...

Web 开发是否正在悄然回归 PHP？

马斯克爆猛料：10 年内上班全自...

前 GitHub CEO 携 6000 万美金再...

Linux 内核 LTS 支持期限调整 -...

软件的未来并非你所想

Airbnb 是如何转型单体架构模式...

Anthropic新推出AI工具能够重写6...

20 周年献礼，jQuery 4.0 正式版...

我要赞赏作者

分享到微信