谷歌推出 MusicLM，一种可以根据文本提示生成音乐的AI技术

场长

动态 0 3324 2023-02-10 11:38:54

人工智能（AI）的发展历程经历过几次热潮，最新一轮即是由DALL-E、ChatGPT等生成式AI引起的热潮。

MusicLM 通过将条件音乐生成过程建模为分层序列到序列建模问题，在几分钟内以恒定的 24 kHz 创建音乐。

谷歌研究院研发人员推出了MusicLM，这是一种可以从文本中生成高保真音乐的人工智能模型。

根据论文披露，MusicLM 在 280,000 小时的音乐数据集上进行了训练，以生成对复杂描述有意义的歌曲。研究人员还声称他们的模型在音频质量和对文本描述的遵守方面都优于以前的系统。

MusicLM样本包括仅由一个或两个词产生的5分钟片段，如旋律技术，以及听起来像整首歌的 30 秒样本，内容由描述流派、氛围甚至特定乐器的长段描述组成.

MusicLM 还能够将一系列按顺序编写的描述转化为建立在现有旋律基础上的音乐故事或叙事，无论它们是吹口哨、哼唱、演唱还是在乐器上演奏。

AI生成音乐的历史比较悠久，它因为能够创作流行歌曲，以及提升现场表演而备受人们赞誉。最更新的版本中，使用 AI 图片生成引擎Stable Diffusion可将转换频谱转换为音乐。

与通过大数据集重大贡献到文本到图像机器学习技术相反，人工智能音乐存在与缺乏耦合音频和文本数据相关的障碍。例如，Stable Diffusion和 OpenAI 的DALL-E工具都引起了用户的广泛兴趣。因为音乐是按时间维度构建的，这给 AI 音乐生成带来了困难。所以与使用静止图像生成相比，使用简单的文本来转换传达音乐曲目的意图要困难得多。

谷歌对 MusicLM 的态度比其一些竞争对手对类似技术的态度更为谨慎，因为它之前已经涉足过这种形式的人工智能。

谷歌研究院的文章以这样的声明结尾，“我们目前没有透露模型的计划”。

MusicLM地址：https://google-research.github.io/seanet/musiclm/examples/

作者：场长

本篇文章为 @ 场长创作并授权 21CTO 发布，未经许可，请勿转载。

内容授权事宜请您联系 webmaster@21cto.com或关注 21CTO 微信公众号。

该文观点仅代表作者本人，21CTO 平台仅提供信息存储空间服务。