谷歌人工智能推出 Muse：一种新的文本到图像转换器模型

场长

人工智能 0 2719 2023-01-14 10:52:04

自 2021 年初以来，大量深度学习支持的文本到图像模型（例如DALL-E-2、Stable Diffusion和Midjourney等）的诞生，人工智能研究的进展发生了近乎革命性的变化。

最新添加到该列表中的是谷歌 Muse，这是一种文本到图像的 Transformer 模型，它声称可以实现最先进、超高性能的图像生成。

谷歌声称，它使用 TPUv4 芯片，可以在短短 0.5 秒内创建 256 x 256 图像，而使用 Imagen 则需要 9.1 秒，他们声称自己的扩散模型提供了“前所未有的照片级真实感”和“深度层次”语言理解。” 其TPU或 Tensor Processing Units 是谷歌自主开发的定制芯片，用作专用 AI 加速器。

Google AI 已经训练了一系列不同大小的 Muse 模型，参数从 6.32 亿到 30 亿不等，发现以预训练的大型语言模型为条件，对于生成逼真的高质量图像非常的重要。

此外，Muse 还优于最先进的自回归模型Parti ，因为它使用并行解码，推理时间比 Imagen-3B 或 Parti-3B 模型快 10 倍以上，基于使用等效硬件的测试比Stable Diffusion v1 快3倍。

Muse 从已经训练好的大型语言模型 (LLM) 获得的文本嵌入，在离散标记空间中接受建模任务的训练，然后预测随机屏蔽的图像标记。Muse 的断言比 Imagen 和 DALL-E 2 等像素空间扩散模型更加有效，它使用离散标记并且需要更少的样本迭代。该模型通过以文本提示为条件，对图像标记进行迭代重采样，可以自由生成零镜头、无遮罩编辑。