17611538698
webmaster@21cto.com

盘点 2023 年开源大语言模型

人工智能 1 780 2024-01-01 01:09:56

图片

自从去年 OpenAI 的聊天机器人 ChatGPT 推出以来,各行业的人们对大型语言模型或 LLM 的兴趣显著增长。

越来越明显的是,这种基于人工智能的生成工具有着巨大的利润潜力,但更广泛的人工智能社区中的许多小型企业和独立研究人员仍然对采用闭源的大模型持谨慎态度,因为它们的运营成本和高昂的计算要求,以及数据所有权、隐私等问题以及他们有时“产生幻觉”虚假信息等令人不安的倾向。

因此,开源大模型的替代品在过去一年中也受到了关注。正如一些调查所指出的,虽然开源模型通常仍然不如其闭源同类强大,但可以对开源选项进行微调,以在特定任务上会超越专有模型。

随着越来越多的开源替代方案的出现,人工智能领域变得更加多样化,以下是为大家总结在 2023 年产生较大影响的竞争者。

1. LLaMA/LLaMA 2

图片

2023 年 2 月,Meta 发布了 LLaMA 的第一个版本,其大型语言模型拥有 130 亿个参数,经测试在大多数基准数据中其性能优于1750 亿个参数的模型——GPT-3。它的第一个版本作为开源包发布,开发者可以在非商业许可下请求访问;然而,该模型及其权重很快就在网上泄露,使其实际上可供任何人使用。

7 月,Meta 随后发布了LLaMA 2。该公司表示,该版本的训练数据量比原始版本多 40%,此外还有其它的微调版本,例如 LLaMA 2-Chat,该版本针对类人对话进行了优化,以及专为生成代码而定制的 LLaMA Code。

图片

虽然,对于LLaMA 2 是否真正开源还存在一些争议,但 Meta 此后在一定程度上开放了对这些模型的使用限制,将商业用途也包括在内,从而产生了基于 LLaMA 的开源衍生品,如 Alpaca、Alpaca-LoRA、Koala、 QLoRA、llama.cpp、Vicuna、Giraffe 和 StableBeluga 正在开发中。

12 月初,Meta 和 IBM 宣布成立AI 联盟,该联盟由 50 多个组织组成,横跨行业、初创企业、学术界、研究机构和政府,共同支持 AI 领域的开放创新与开放科学。

LLaMA 2 地址:https://ai.meta.com/llama/

2.Pythia

图片

Pythia于 4 月份由非营利实验室 EleutherAI 发布,是一套不同规模的大语言模型套件,接受公共数据的训练。

Pythia 目标为研究人员提供一种可解释性工具,帮助他们更好地了解大语言模型背后的训练过程及其产生的结果。

https://github.com/EleutherAI/pythia

3. MPT


图片


MosaicML 从 5 月份开始推出MPT大语言模型系列,最初是70 亿参数模型,随后在 6 月份推出了 300 亿参数版本,该公司声称该版本的性能优于 LLaMA 和 Falcon,特别是在某些需要较长文本提示的用例。


MPT 结合了不断发展的语言模型领域的一些最新技术,以提高效率、上下文长度外推并提高稳定性,以减少损失峰值。


地址:https://www.mosaicml.com/mpt


4. Falcon(猎鹰)


这个最先进的语言模型系列由位于阿布扎比的技术创新研究所于 6 月初在 Apache 2.0 许可证下推出的。(相关许可证文章:2023 年语言最流行的许可证


这个包含 400 亿个参数的模型立即受到了该领域开发人员与研究人员的欢迎,因为该模型是带有权重的。


9 月,该研究所宣布了一个更大的Falcon模型,拥有 1800 亿个参数,使其成为最大的开源模型之一。Falcon 背后的团队坚称,虽然这个 1800 亿参数的版本稍微落后于 OpenAI 的GPT-4等闭源模型,但它仍然超越了 Meta 的 LLaMA 2,并与 Google 的 PaLM 2 Large 并肩。


地址:https://www.tii.ae/about-us


5. BLOOM


另一个引起轰动的模型是BLOOM(BigScience Large Open-science Open-access Multilingual Language Model 的缩写)。它实际上是在 2022 年 7 月发布的,之所以出现在此名单中,是因为它是在Hugging Face和法国 GENCI(Grand Equipement National de Calcul Intensif)的协调下,由来自 60 个国家和 250 个机构的 1,000 多名人工智能研究人员合作开发的模型。


IDRIS(密集科学计算发展与资源研究所)为了促进大型语言模型的公共研究,最大的 BLOOM 模型拥有 1780 亿个参数,并接受了来自 46 种人类语言和 13 种编程语言的多语言数据的训练,使其成为迄今为止最大的开源大规模多语言模型。


地址:https://huggingface.co/bigscience/bloom


6.Mistral


Mistral由 Meta 和 Google 的前研发人员创立,于 9 月份首次发布了包含 70 亿参数的 LLM。


据这家总部位于巴黎的初创公司称,Mistral 7B 在许多指标上都优于 LLaMA 2 等其他开源 LLM。就在本月,该团队通过 torrent 链接发布了一款名为 Mixtral 8x7B 的新模型,引起了足够的轰动,盖过了围绕大型科技公司发布的过度排练的宣传。


地址:https://mistral.ai/


结语


随着开源大模型领域的不断扩大,许多开发者希望转向更具成本效益、透明和可调整的开源替代方案来减少对 OpenAI API 的依赖。


专有模型目前可能仍具有微量优势,但开源模型正在迅速地迎头赶上,一些开放的模型已经超越了较大参数的同行,这表明训练数据的质量比数据大小更重要。


过去的一年,开放大模型取得了一些非常令人兴奋的进展,这清楚地表明,随着大型语言模型领域的发展,它们将继续发挥重要的作用。


作者:素生

评论