17611538698
info@21cto.com

中国 Z.ai 声称,它使用华为硬件训练出了一个新模型

动态 0 15 16小时前
图片

导读:中国人工智能公司智谱AI声称,它完全独立使用华为硬件训练了一个新模型,并且是第一家完全基于中国硬件构建高端模型的公司。

智谱(即Z.ai,https://chat.z.ai/),是中国第一家上市的人工智能公司,它提供多种类型的通用语言模型(GLM)的模型。

本周三,该公司发布了GLM-Image,称其采用了“自主研发的‘自回归+扩散解码器’混合架构,能够联合生成图像和语言模型”。这标志着其图像生成AI Nano Banana Pro取得了重大进展。

Z.ai 使用华为 Ascend Atlas 800T A2服务器开发了该款模型。这款服务器可以运行四颗鲲鹏 920 处理器,每颗处理器可选 64 核或 48 核。华为的处理器采用自主设计研发的 Arm 内核。

另外,这些服务器集群采用了华为昇腾910人工智能处理器。

华为 Ascend 系列显卡的最新版本是 2025 年8月推出的 910C。华为声称该显卡“每张卡在 FP16 精度下可实现约 800 TFLOPS 的计算能力,这大约是 NVIDIA H100 芯片(2022 年发布)计算能力的 80%”。

图片

在模型市场 Hugging Face 上,智谱将GLM-Image 的架构描述为由以下两个元素组成:

  • 自回归生成器
    一个基于 GLM-4-9B-0414 初始化的 9B 参数模型,并扩展了词汇表以包含视觉标记。该模型首先生成约 256 个标记的紧凑编码,然后扩展到 1K 至 4K 个标记,对应于 1K 至 2K 的高分辨率图像输出。
  • 扩散解码器
    一种基于单流 DiT 架构的 7B 参数解码器,用于潜在空间图像解码。它配备了字形编码器文本模块,显著提高了图像中文本的渲染精度。


该公司还表示说,“从数据预处理到大规模训练的整个过程”都是使用 Atlas 服务器完成的,因此该模型的首次亮相证明了“在中国国产全栈计算平台上训练尖端模型的可行性”。

但智谱并未透露其用于创建 GLM 镜像的服务器或加速器数量,以及生成的运行速度如何。

但可以确定的是,该公司可以声称其利用本土技术开发了一种模型。

但是也不能忽略 Arm 对鲲鹏的贡献,另外华为的硬件是否以速度或价格实现了这一目标,以充分证明中国已经抢占了先机,尚待观察。

专家预测未来许多测试平台都将是面向小众领域的小型设备,一款完全由中国自主研发的测试平台的消息是值得人们注目的。

作者:洛逸

评论

我要赞赏作者

请扫描二维码,使用微信支付哦。

分享到微信