17611538698
webmaster@21cto.com

十个最受欢迎的本地语言大模型

图片

导读:由于先进的量化和模型优化,开发者可以在笔记本电脑或台式机上运行功能强大的大语言模型,即使你的内存或虚拟内存不足8GB。

当大多数人想到大型语言模型(LLMs)时,他们会想到庞大的云服务器和高昂的订阅费用。

但人工智能革命现在已经触手可及。实际上。由于先进的量化和模型优化,你可以在笔记本电脑或台式机上运行强大的LLMs,即使你的RAM或VRAM不足8GB。让我们探讨如何将先进的AI带到你的本地机器,以及哪些模型正在引领潮流。

解密量化:小型LLM如何适应中等硬件

在深入了解最佳模型之前,让我们分解让本地LLM成为可能的技术栈。

其秘诀在于量化——一种将模型权重从16位或32位浮点数缩减为4位或8位整数的过程,从而大幅减少内存需求而不对质量造成重大影响。

例如,一个原本需要14GB FP16的7B参数模型,通过4位量化可以在只有4-5GB的内存中运行。

图片


关键技术概念:

  • VRAM vs. RAM:
     VRAM(在你的GPU上)速度快,适合LLM推理;RAM(系统内存)较慢但更丰富。为了获得最佳效果,请将模型保留在VRAM中。
  • GGUF格式:
     量化模型的首选格式,兼容大多数本地推理引擎。
  • 量化类型:
     Q4_K_M 是质量和效率的完美平衡;Q2_K 或 IQ3_XS 节省更多空间但可能降低输出质量。
  • 内存开销:
     始终预留模型文件大小的1.2倍来考虑激活和提示上下文。
开始使用:运行本地LLM的工具
图片
  • Ollama:
     一个面向开发者的CLI工具,用于在本地运行LLM。它快速、可脚本化,并支持通过Modelfile打包自定义模型。非常适合程序员和自动化专家。
  • LM Studio:
    你更喜欢图形界面吗?LM Studio提供了一个漂亮的桌面应用程序,内置聊天功能,可以从Hugging Face轻松下载模型,并简单调整参数。非常适合初学者和非技术人员。
  • Llama.cpp:
    许多本地LLM工具背后的C++引擎,针对GGUF模型进行了优化,并支持CPU/GPU加速。
最佳的10个小型本地LLM(全部低于8GB!)

1、Llama 3.1 8B(量化版)


图片
ollama run llama3.1:8b
Meta的Llama 3.1 8B是通用AI的佼佼者,拥有庞大的训练集和智能优化。

像Q2_K(3.18GB文件,约7.2GB内存)和Q3_K_M(4.02GB文件,约7.98GB内存)这样的量化版本使其适用于大多数笔记本电脑。它在聊天、代码、摘要和RAG任务中表现出色,是批量处理和代理工作流程的首选。

2、Mistral 7B(量化版)


图片
ollama run mistral:7b
Mistral 7B专为速度和效率而设计,采用GQA和SWA实现顶级的性能。Q4_K_M(4.37GB文件,6.87GB内存)和Q5_K_M(5.13GB文件,7.63GB内存)的量化版本非常适合8GB配置。

它非常适合实时聊天机器人、边缘设备和商业用途(使用Apache 2.0许可证)。

3、Gemma 3:4B(量化版)


图片

ollama run gemma3:4b
谷歌DeepMind的Gemma 3:4B虽小但却强大。Q4_K_M(1.71GB文件)只需4GB VRAM即可运行,非常适合移动设备和低端PC。非常适合文本生成、问答和OCR任务。

4、Gemma 7B(量化版)


图片
ollama run gemma:7b

更大的Gemma 7B在代码、数学和推理方面更具实力,但仍能容纳在8GB VRAM中(Q5_K_M:6.14GB,Q6_K:7.01GB)。它适用于内容创作、聊天和知识工作。

5、Phi-3 Mini(3.8B,量化版)


图片
ollama run phi3
微软的Phi-3 Mini是一款紧凑的强大工具,适用于逻辑、编程和数学。Q8_0(4.06GB文件,7.48GB内存)完全在8GB限制内。它非常适合聊天、移动设备和低延迟任务。

6、DeepSeek R1 7B/8B(量化版)


图片
ollama run deepseek-r1:7b

DeepSeek的7B和8B模型以推理和代码能力著称。R1 7B Q4_K_M(4.22GB文件,6.72GB内存)和R1 8B(4.9GB文件,6GB VRAM)都适合8GB配置。它们非常适合中小企业、客户服务和高级数据分析。

7、Qwen 1.5/2.5 7B(量化版)

图片
ollama run qwen:7b
阿里巴巴的Qwen 7B模型是多语言且具有丰富的上下文(32K tokens)。Qwen 1.5 7B Q5_K_M(5.53GB)和Qwen2.5 7B(4.7GB,6GB VRAM)非常适合聊天机器人、翻译和编程帮助。

8、Deepseek-coder-v2 6.7B(量化版)


ollama run deepseek-coder-v2:6.7b

Deepseek-coder-v2 6.7B是程序员的梦想——经过微调,专门用于代码生成和理解。在3.8GB(6GB VRAM)下运行,是本地代码补全和开发工具的首选。

9、BitNet b1.58 2B4T


图片
ollama run hf.co/microsoft/bitnet-b1.58-2B-4T-gguf
来自微软的BitNet b1.58 2B4T是效率的奇迹,使用1.58位权重仅需0.4GB内存即可运行。它非常适合边缘设备、物联网和纯CPU推理——比如设备上的翻译和移动助手。

10、Orca-Mini 7B(量化版)


ollama run orca-mini:7b

Orca-Mini 7B基于Llama和Llama 2构建,是一个灵活的模型,适用于聊天、问答和指令遵循。Q4_K_M(4.08GB文件,6.58GB内存)和Q5_K_M(4.78GB文件,7.28GB内存)都是8GB友好的。它是构建AI代理和对话工具的理想选择。

结语


上述所分享的模型——Llama 3.1 8B、Mistral 7B、Gemma 3:4B和7B、Phi-3 Mini、DeepSeek R1、Qwen 7B、Deepseek-coder-v2、BitNet b1.58和Orca-Mini——证明了你不需要超级计算机来利用AI。

这些均得益于量化和开源创新,可以让我们在日常的普通硬件上运行先进的语言模型。

再总结一下为什么大语言模型的本地化运行如此的重要:

  • 隐私性:
     保持数据本地化——不需要云端
  • 成本变低:
     无需订阅或云费用
  • 速度快:
     即时响应,即使离线的状态
  • 灵活性:
     实验、定制和部署到任何地方

随着量化和边缘AI的持续发展,预计会有更多强大的模型在更小的设备上运行。让我们继续深入探索,不断进行实验,找到适合工作流程的最佳大语言模型!

作者:洛逸

参考:

https://garysvenson09.medium.com/10-must-try-small-local-llms-that-run-on-less-than-8gb-ram-vram-aea836d8a85b

评论