+8613426109659
webmaster@21cto.com

在AI的帮助下,谷歌正将内部工作负载迁移至 Arm架构

人工智能 0 22 20小时前
图片

谷歌宣布,它正将大约 3万个生产型软件包移植到 Arm 架构,并且计划将它们全部转换完毕,以便可以在自己的 Axion 硅片和 x86 处理器上运行。

这家搜索与广告的IT巨头在上周发表了题为“仓库规模的指令集迁移”的预印论文中记录了这一行动。

https://arxiv.org/pdf/2510.14928

谷歌在一篇文章中透露说,重要应用 YouTube、Gmail 和 BigQuery 已经在 x86 和 Axion Arm CPU 上运行,还有大约 30000 个应用程序也将继续运行。

这两份文件中都解释了谷歌的迁移过程,工程研究员 Parthasarathy Ranganathan 和开发者关系工程师 Wolff Dobson 表示道,迁移过程始于一个假设,“我们将花时间研究架构差异,例如浮点漂移、并发性、平台特定运算符等内在函数以及性能。”

“起初,我们迁移了一些关键工作,例如 F1、Spanner 和 Bigtable,采用了典型的软件实践,每周开会,并配备了专门的工程师,”两人写道。“在早期阶段,我们发现了上述问题的证据,但远没有我们预期的那么多。事实证明,现代编译器和类似清理工具的工具已经解决了大部分意外问题。”

谷歌的开发团队的负责人称把大部分时间花在了以下工作上:

  • 修复因过度拟合现有 x86 服务器而失败的测试;
  • 更新复杂的构建与发布系统,通常针对“最古老”和流量最高的服务;
  • 解决生产配置中的推出等问题;
  • 注意避免破坏关键系统的稳定。

显然,这是一个巨大的代码集合,谷歌可以将其现有的自动化工具投入使用 - 然后构建一个名为“CogniPort”的新 AI 工具来完成这些事情。

“CogniPort 会根据构建和测试错误进行操作,”Ranganathan 和 Dobson 如此补充说。“如果在流程的任何环节,Arm 库、二进制文件或测试未能构建,或者测试因错误而失败,代理就会介入并自动修复问题。作为第一步,我们已经使用 CogniPort 的蓝图编辑模式生成无法进行简单更改的迁移提交。”

谷歌发现,该AI代理在特定条件下的成功率约为 30%,并且在测试修复、特定于平台的条件和数据表示修复方面表现最佳。

这并不是一特别大的成功率,谷歌至少还有另外 70000 个软件包需要移植。

该公司的目标是彻底完成这项工作,以便其著名的 Borg 集群管理器(以Kubernetes 为基础)能够以有效利用 Arm 服务器的方式分配公司内部工作负载。

这样做可能会节省资金,因为谷歌声称其基于 Axion 的机器比 x86 实例的性价比高出 65%,并且能源效率高出 60%。

这些数字以及谷歌代码迁移项目的规模表明,这家网络巨头在未来几年将舍弃更多的 x86 处理器。

作者:场长

相关网址:

https://cloud.google.com/blog/topics/systems/using-ai-and-automation-to-migrate-between-instruction-sets/

评论

我要赞赏作者

请扫描二维码,使用微信支付哦。