根据你的硬件配置选择合适的模型:
适合初次尝试和学习:
-
Qwen2.5-1.5B-Instruct (推荐)
- 模型 ID:
Qwen/Qwen2.5-1.5B-Instruct - 大小: ~3GB
- 特点: 小巧快速,中英文表现优秀
- 模型 ID:
-
Llama-3.2-1B-Instruct
- 模型 ID:
meta-llama/Llama-3.2-1B-Instruct - 大小: ~2.5GB
- 特点: Meta 官方小型模型
- 模型 ID:
更强的理解和生成能力:
-
Qwen2.5-3B-Instruct
- 模型 ID:
Qwen/Qwen2.5-3B-Instruct - 大小: ~6GB
- 特点: 性能与效率平衡
- 模型 ID:
-
Llama-3.2-3B-Instruct
- 模型 ID:
meta-llama/Llama-3.2-3B-Instruct - 大小: ~6.5GB
- 特点: 强大的多语言能力
- 模型 ID:
顶级性能:
-
Qwen2.5-7B-Instruct
- 模型 ID:
Qwen/Qwen2.5-7B-Instruct - 大小: ~14GB
- 特点: 接近 GPT-3.5 的性能
- 模型 ID:
-
Qwen2.5-14B-Instruct
- 模型 ID:
Qwen/Qwen2.5-14B-Instruct - 大小: ~28GB
- 特点: 最强开源中文模型之一
- 模型 ID:
如果你使用 Apple Silicon 和 MLX,强烈推荐使用 mlx-community 的量化模型:
内存占用更小,速度更快:
-
Qwen2.5-1.5B-Instruct-4bit
- 模型 ID:
mlx-community/Qwen2.5-1.5B-Instruct-4bit - 大小: ~1GB
- 特点: 极致性能,几乎无损
- 模型 ID:
-
Qwen2.5-7B-Instruct-4bit
- 模型 ID:
mlx-community/Qwen2.5-7B-Instruct-4bit - 大小: ~4GB
- 特点: 在 M1 Pro 及以上流畅运行
- 模型 ID:
更好的质量:
- Qwen2.5-7B-Instruct-8bit
- 模型 ID:
mlx-community/Qwen2.5-7B-Instruct-8bit - 大小: ~8GB
- 特点: 质量与效率兼顾
- 模型 ID:
| 模型 | 参数量 | 内存占用 | 中文能力 | 英文能力 | 推荐场景 |
|---|---|---|---|---|---|
| Qwen2.5-1.5B | 1.5B | ~3GB | ⭐⭐⭐⭐ | ⭐⭐⭐ | 学习测试 |
| Qwen2.5-3B | 3B | ~6GB | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | 日常使用 |
| Qwen2.5-7B | 7B | ~14GB | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | 专业工作 |
| Llama-3.2-3B | 3B | ~6.5GB | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | 英文为主 |
python main.py --model Qwen/Qwen2.5-7B-Instruct编辑 config/config.yaml:
model:
default_model: "Qwen/Qwen2.5-7B-Instruct"export DEFAULT_MODEL="Qwen/Qwen2.5-7B-Instruct"
python main.py首次运行时,模型会自动从 HuggingFace 下载:
python main.py如果自动下载失败,可以手动下载:
# 使用 huggingface-cli
pip install huggingface-hub
huggingface-cli download Qwen/Qwen2.5-1.5B-Instruct如果已经下载了模型到本地:
python main.py --model /path/to/local/model- 使用 MLX 框架
- 选择 mlx-community 的量化模型
- 确保系统更新到最新版本
- 使用最新的 CUDA 版本
- 启用 Flash Attention (可选)
- 使用 bitsandbytes 量化
- 选择较小的模型 (1.5B-3B)
- 减少
max_new_tokens - 使用量化模型
- C-Eval (中文综合): 1.5B: 67.9 | 7B: 83.5
- MMLU (英文综合): 1.5B: 60.9 | 7B: 70.3
- HumanEval (代码): 1.5B: 37.8 | 7B: 61.6
- MMLU: 3B: 63.4
- HumanEval: 3B: 52.4
model:
default_model: "Qwen/Qwen2.5-3B-Instruct"
max_new_tokens: 512
temperature: 0.7model:
default_model: "Qwen/Qwen2.5-7B-Instruct"
max_new_tokens: 1024
temperature: 0.9
top_p: 0.95model:
default_model: "Qwen/Qwen2.5-7B-Instruct"
max_new_tokens: 2048
temperature: 0.3
top_p: 0.8