17611538698
webmaster@21cto.com

MIT 华人博士加入前OpenAI CTO的思考机器实验室,年薪超300万

图片

导读:MIT华人博士,清华学士肖光烜宣布,正式加盟Thinking Machines,主攻大模型预训练。

近期,一位华人麻省理工大学(MIT)博士,名字叫做肖光烜(Guangxuan Xiao),被前OpenAI的首席技术官米拉·穆拉蒂(Mira Murati)所创立的Think Machines (思考机器实验室)看中,刚一毕业就被邀请到了这家人工智能公司,从事大语言模型的预训练工作。
以下,是他在X平台上的公告帖。
图片
在公告帖的评论区下方,一众好友与粉丝纷纷前来祝贺,这包括英伟达科学家、xAI研究员、UCSD等知名人士。
图片

清华双学位学霸,MIT博士的开挂人生


肖光烜的本科毕业于清华大学。他拿到了双学位,主修专业是计算机科学,辅修金融学学位。


在校期间,他获得了清华大学综合优秀奖学金(2019)、全国大学生数学建模竞赛(CUMCM)一等奖(2020)、国家奖学金(2020)、清华大学「未来学者」奖学金(2021)等多项奖项。


图片
他于2020–2021年作为访问生,前往美国斯坦福大学计算机系开展科研工作。
2022年,肖光烜加入MIT攻读博士学位,导师为知名的韩松(Song Han)教授。
图片
肖光烜个人研究方向聚焦于:深度学习的高效算法与系统,尤其是大规模基础模型(Foundation Model)。
他在2022年9月至2026年1月,在MIT EECS担任全职研究助理(Research Assistant)。
读博期间,肖光烜曾多次进入全球顶级科技大厂从事前沿研究实习,具备了丰富的一线工业研发的经验。
2023年,他曾加入Meta实习,研究方向为“流式语言模型的高效注意力机制”,相关成果已经发表在arxiv上。
2024年2-5月期间,他作为英伟达实习生,研究方向是为长上下文大语言模型推理加速。
他和团队提出了DuoAttention,结合检索与流式注意力头,实现高效推理。
  • 随后,他又参与了多项核心研究项目,其中包括:
  • XAttention:基于反对角评分的块稀疏注意力机制
  • StreamingVLM:面向无限视频流的实时理解模型
  • FlashMoBA:混合块注意力(Mixture of Block Attention)的高效优化

丰富多彩的爱好
值得一提的是,肖光烜在研究技术之外,还有着丰富的兴趣爱好,比如足球、乒乓球、围棋、钢琴。
图片
他曾担任所在院系足球队的队长兼先锋,贝多芬的钢琴作品是个人最爱。
图片

一篇博士论文,破解LLM三大难题


相比光鲜的简历,肖光烜的博士论文非常值得人们深入研析与拆解。
图片
如今大模型已经快无所不能,但它们的训练成本依然非常昂贵。
比如显存爆炸、推理缓慢、长上下文直接OOM(内存溢出),这是几乎所有LLM工程团队每天都要面对的现实。
肖光烜和团队的《Efficient Algorithms and Systems for Large Language Models》这篇论文,给出了一个罕见的、从工程到理论、从算法到架构的完整答案。
论文中, 他们提出了SmoothQuant,解决了一个长期困扰工业界的问题——激活值异常(activation outliers)。
SmoothQuant通过一个巧妙的数学等价变换,把量化难点从“激活”转移到“权重”。
结果,它实现了首个在十亿级模型上W8A8无损量化,无需重新训练,显存更小、推理更快。
针对超长序列的处理,作者在StreamingLLM中发现了“注意力汇点”(attention sink)现象——即使没有任何语义,初始token会被后续token持续关注。这些token的作用不是“理解”,而是数值稳定。
结果,实现了常数内存的流式推理,模型上下文长度从数千token扩展到百万级。
更进一步,他们又把这一思想推广到多模态,StreamingVLM可以在保持时间一致性的同时处理长达数小时的视频内容。
对于超长上下文场景,团队又提出一个互补方案,分别针对不同的性能瓶颈。
KVCache太大,采用DuoAttention。注意力头本身就有分工:少数负责“全局检索”,多数只看“最近上下文”。
DuoAttention用混合策略,大幅降低显存,却几乎不掉性能。
预填充(Prefill)太慢,采用XAttention。利用反对角线评分机制,仅识别、计算必要的注意力块,从而实现显著的加速效果。
论文的最后,并没有止步于“优化现有模型”,通过对MoBA(块混合注意力) 的信噪比分析,作者证明了:理论上,block越小越好。
但现实是GPU不答应,于是有了FlashMoBA,一种定制化的CUDA内核,使小块架构在实践中可行,并实现了最高可达9倍的速度提升。
这篇论文的价值在于,构建了一整套高效大模型的完整框架,既回应了当下的现实挑战,也为下一代计算高效、普惠可及的AGI奠定了基础。

350万年薪,赢在新起点


去年硅谷的人工智能人才争夺战异常激烈,而前OpenAI的CTO创立的Thinking Machines(思考机器实验室,简称TML)给员工们开出的薪资,基础年薪高达50万美元(约350万元人民币)。
TML向前两名技术员工支付了45万美元的基础年薪,另一名员工的年薪则高达50万美元。第四名员工被列为联合创始人/机器学习专家,其年薪同样为45万美元。
总体来看,TML为这四名技术员工提供的平均年薪达到462500美元。此薪资水平在硅谷来说也是数一数二。

作者:场长

参考:

https://guangxuanx.com/

https://x.com/Guangxuan_Xiao/status/2008779396497502337

评论

我要赞赏作者

请扫描二维码,使用微信支付哦。

分享到微信