十个最受欢迎的本地语言大模型

+8613426109659

webmaster@21cto.com

登录注册

十个最受欢迎的本地语言大模型

行动的大雄

人工智能 0 1416 2025-07-23 09:27:54

导读：由于先进的量化和模型优化，开发者可以在笔记本电脑或台式机上运行功能强大的大语言模型，即使你的内存或虚拟内存不足8GB。

当大多数人想到大型语言模型（LLMs）时，他们会想到庞大的云服务器和高昂的订阅费用。

但人工智能革命现在已经触手可及。实际上。由于先进的量化和模型优化，你可以在笔记本电脑或台式机上运行强大的LLMs，即使你的RAM或VRAM不足8GB。让我们探讨如何将先进的AI带到你的本地机器，以及哪些模型正在引领潮流。

解密量化：小型LLM如何适应中等硬件

在深入了解最佳模型之前，让我们分解让本地LLM成为可能的技术栈。

其秘诀在于量化——一种将模型权重从16位或32位浮点数缩减为4位或8位整数的过程，从而大幅减少内存需求而不对质量造成重大影响。

例如，一个原本需要14GB FP16的7B参数模型，通过4位量化可以在只有4-5GB的内存中运行。

关键技术概念：

VRAM vs. RAM:
VRAM（在你的GPU上）速度快，适合LLM推理；RAM（系统内存）较慢但更丰富。为了获得最佳效果，请将模型保留在VRAM中。
GGUF格式:
量化模型的首选格式，兼容大多数本地推理引擎。
量化类型:
Q4_K_M 是质量和效率的完美平衡；Q2_K 或 IQ3_XS 节省更多空间但可能降低输出质量。
内存开销:
始终预留模型文件大小的1.2倍来考虑激活和提示上下文。

开始使用：运行本地LLM的工具

Ollama:
一个面向开发者的CLI工具，用于在本地运行LLM。它快速、可脚本化，并支持通过Modelfile打包自定义模型。非常适合程序员和自动化专家。
LM Studio:
你更喜欢图形界面吗？LM Studio提供了一个漂亮的桌面应用程序，内置聊天功能，可以从Hugging Face轻松下载模型，并简单调整参数。非常适合初学者和非技术人员。
Llama.cpp:
许多本地LLM工具背后的C++引擎，针对GGUF模型进行了优化，并支持CPU/GPU加速。

最佳的10个小型本地LLM（全部低于8GB！）

1、Llama 3.1 8B（量化版）

ollama run llama3.1:8b

Meta的Llama 3.1 8B是通用AI的佼佼者，拥有庞大的训练集和智能优化。

像Q2_K（3.18GB文件，约7.2GB内存）和Q3_K_M（4.02GB文件，约7.98GB内存）这样的量化版本使其适用于大多数笔记本电脑。它在聊天、代码、摘要和RAG任务中表现出色，是批量处理和代理工作流程的首选。

2、Mistral 7B（量化版）

ollama run mistral:7b

Mistral 7B专为速度和效率而设计，采用GQA和SWA实现顶级的性能。Q4_K_M（4.37GB文件，6.87GB内存）和Q5_K_M（5.13GB文件，7.63GB内存）的量化版本非常适合8GB配置。

它非常适合实时聊天机器人、边缘设备和商业用途（使用Apache 2.0许可证）。

3、Gemma 3:4B（量化版）

ollama run gemma3:4b

谷歌DeepMind的Gemma 3:4B虽小但却强大。Q4_K_M（1.71GB文件）只需4GB VRAM即可运行，非常适合移动设备和低端PC。非常适合文本生成、问答和OCR任务。

4、Gemma 7B（量化版）

ollama run gemma:7b

更大的Gemma 7B在代码、数学和推理方面更具实力，但仍能容纳在8GB VRAM中（Q5_K_M：6.14GB，Q6_K：7.01GB）。它适用于内容创作、聊天和知识工作。

5、Phi-3 Mini（3.8B，量化版）

ollama run phi3

微软的Phi-3 Mini是一款紧凑的强大工具，适用于逻辑、编程和数学。Q8_0（4.06GB文件，7.48GB内存）完全在8GB限制内。它非常适合聊天、移动设备和低延迟任务。

6、DeepSeek R1 7B/8B（量化版）

ollama run deepseek-r1:7b

DeepSeek的7B和8B模型以推理和代码能力著称。R1 7B Q4_K_M（4.22GB文件，6.72GB内存）和R1 8B（4.9GB文件，6GB VRAM）都适合8GB配置。它们非常适合中小企业、客户服务和高级数据分析。

7、Qwen 1.5/2.5 7B（量化版）

ollama run qwen:7b

阿里巴巴的Qwen 7B模型是多语言且具有丰富的上下文（32K tokens）。Qwen 1.5 7B Q5_K_M（5.53GB）和Qwen2.5 7B（4.7GB，6GB VRAM）非常适合聊天机器人、翻译和编程帮助。

8、Deepseek-coder-v2 6.7B（量化版）

ollama run deepseek-coder-v2:6.7b

Deepseek-coder-v2 6.7B是程序员的梦想——经过微调，专门用于代码生成和理解。在3.8GB（6GB VRAM）下运行，是本地代码补全和开发工具的首选。

9、BitNet b1.58 2B4T

ollama run hf.co/microsoft/bitnet-b1.58-2B-4T-gguf

来自微软的BitNet b1.58 2B4T是效率的奇迹，使用1.58位权重仅需0.4GB内存即可运行。它非常适合边缘设备、物联网和纯CPU推理——比如设备上的翻译和移动助手。

10、Orca-Mini 7B（量化版）

ollama run orca-mini:7b

Orca-Mini 7B基于Llama和Llama 2构建，是一个灵活的模型，适用于聊天、问答和指令遵循。Q4_K_M（4.08GB文件，6.58GB内存）和Q5_K_M（4.78GB文件，7.28GB内存）都是8GB友好的。它是构建AI代理和对话工具的理想选择。

结语

上述所分享的模型——Llama 3.1 8B、Mistral 7B、Gemma 3:4B和7B、Phi-3 Mini、DeepSeek R1、Qwen 7B、Deepseek-coder-v2、BitNet b1.58和Orca-Mini——证明了你不需要超级计算机来利用AI。

这些均得益于量化和开源创新，可以让我们在日常的普通硬件上运行先进的语言模型。

再总结一下为什么大语言模型的本地化运行如此的重要：

隐私性:
保持数据本地化——不需要云端
成本变低:
无需订阅或云费用
速度快:
即时响应，即使离线的状态
灵活性:
实验、定制和部署到任何地方

随着量化和边缘AI的持续发展，预计会有更多强大的模型在更小的设备上运行。让我们继续深入探索，不断进行实验，找到适合工作流程的最佳大语言模型！

作者：洛逸
参考：
https://garysvenson09.medium.com/10-must-try-small-local-llms-that-run-on-less-than-8gb-ram-vram-aea836d8a85b

本篇文章为 @ 行动的大雄创作并授权 21CTO 发布，未经许可，请勿转载。

内容授权事宜请您联系 webmaster@21cto.com或关注 21CTO 公众号。

该文观点仅代表作者本人，21CTO 平台仅提供信息存储空间服务。

行动的大雄

标准用户

十个最受欢迎的本地语言大模型

1、Llama 3.1 8B（量化版）

2、Mistral 7B（量化版）

3、Gemma 3:4B（量化版）

4、Gemma 7B（量化版）

5、Phi-3 Mini（3.8B，量化版）

6、DeepSeek R1 7B/8B（量化版）

7、Qwen 1.5/2.5 7B（量化版）

8、Deepseek-coder-v2 6.7B（量化版）

9、BitNet b1.58 2B4T

10、Orca-Mini 7B（量化版）

结语

评论

行动的大雄

最新文章

在AI的帮助下，谷歌正将内部工作...

CSS 通过新的 if() 函数实现了内...

李开复的“残酷评估”：美国已在AI...

为什么我们需要初级开发人员？

IntelliJ IDEA 2025.2.4 已发布...

AWS 云服务突发故障，多家公司受...

单块GPU上跑出实时3D宇宙，李飞...

9 个开源工具帮助你提高工作效率

微软、AWS 和谷歌加速将生产迁出...

如何使用Go的并行做更多事情

我要赞赏作者