Skip to content

Latest commit

 

History

History
206 lines (142 loc) · 4.13 KB

File metadata and controls

206 lines (142 loc) · 4.13 KB

模型选择指南

推荐模型

根据你的硬件配置选择合适的模型:

入门级 (8GB RAM)

适合初次尝试和学习:

  1. Qwen2.5-1.5B-Instruct (推荐)

    • 模型 ID: Qwen/Qwen2.5-1.5B-Instruct
    • 大小: ~3GB
    • 特点: 小巧快速,中英文表现优秀
  2. Llama-3.2-1B-Instruct

    • 模型 ID: meta-llama/Llama-3.2-1B-Instruct
    • 大小: ~2.5GB
    • 特点: Meta 官方小型模型

进阶级 (16GB RAM)

更强的理解和生成能力:

  1. Qwen2.5-3B-Instruct

    • 模型 ID: Qwen/Qwen2.5-3B-Instruct
    • 大小: ~6GB
    • 特点: 性能与效率平衡
  2. Llama-3.2-3B-Instruct

    • 模型 ID: meta-llama/Llama-3.2-3B-Instruct
    • 大小: ~6.5GB
    • 特点: 强大的多语言能力

专业级 (32GB RAM / 8GB+ VRAM)

顶级性能:

  1. Qwen2.5-7B-Instruct

    • 模型 ID: Qwen/Qwen2.5-7B-Instruct
    • 大小: ~14GB
    • 特点: 接近 GPT-3.5 的性能
  2. Qwen2.5-14B-Instruct

    • 模型 ID: Qwen/Qwen2.5-14B-Instruct
    • 大小: ~28GB
    • 特点: 最强开源中文模型之一

MLX 优化模型 (Apple Silicon 专用)

如果你使用 Apple Silicon 和 MLX,强烈推荐使用 mlx-community 的量化模型:

4-bit 量化版本

内存占用更小,速度更快:

  1. Qwen2.5-1.5B-Instruct-4bit

    • 模型 ID: mlx-community/Qwen2.5-1.5B-Instruct-4bit
    • 大小: ~1GB
    • 特点: 极致性能,几乎无损
  2. Qwen2.5-7B-Instruct-4bit

    • 模型 ID: mlx-community/Qwen2.5-7B-Instruct-4bit
    • 大小: ~4GB
    • 特点: 在 M1 Pro 及以上流畅运行

8-bit 量化版本

更好的质量:

  1. Qwen2.5-7B-Instruct-8bit
    • 模型 ID: mlx-community/Qwen2.5-7B-Instruct-8bit
    • 大小: ~8GB
    • 特点: 质量与效率兼顾

模型对比

模型 参数量 内存占用 中文能力 英文能力 推荐场景
Qwen2.5-1.5B 1.5B ~3GB ⭐⭐⭐⭐ ⭐⭐⭐ 学习测试
Qwen2.5-3B 3B ~6GB ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ 日常使用
Qwen2.5-7B 7B ~14GB ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ 专业工作
Llama-3.2-3B 3B ~6.5GB ⭐⭐⭐ ⭐⭐⭐⭐⭐ 英文为主

如何切换模型

方法 1: 命令行参数

python main.py --model Qwen/Qwen2.5-7B-Instruct

方法 2: 修改配置文件

编辑 config/config.yaml:

model:
  default_model: "Qwen/Qwen2.5-7B-Instruct"

方法 3: 环境变量

export DEFAULT_MODEL="Qwen/Qwen2.5-7B-Instruct"
python main.py

模型下载

自动下载 (推荐)

首次运行时,模型会自动从 HuggingFace 下载:

python main.py

手动下载

如果自动下载失败,可以手动下载:

# 使用 huggingface-cli
pip install huggingface-hub
huggingface-cli download Qwen/Qwen2.5-1.5B-Instruct

使用本地模型

如果已经下载了模型到本地:

python main.py --model /path/to/local/model

性能优化建议

Apple Silicon

  1. 使用 MLX 框架
  2. 选择 mlx-community 的量化模型
  3. 确保系统更新到最新版本

NVIDIA GPU

  1. 使用最新的 CUDA 版本
  2. 启用 Flash Attention (可选)
  3. 使用 bitsandbytes 量化

CPU

  1. 选择较小的模型 (1.5B-3B)
  2. 减少 max_new_tokens
  3. 使用量化模型

模型评测数据

Qwen2.5 系列

  • C-Eval (中文综合): 1.5B: 67.9 | 7B: 83.5
  • MMLU (英文综合): 1.5B: 60.9 | 7B: 70.3
  • HumanEval (代码): 1.5B: 37.8 | 7B: 61.6

Llama 3.2 系列

  • MMLU: 3B: 63.4
  • HumanEval: 3B: 52.4

推荐配置

日常使用

model:
  default_model: "Qwen/Qwen2.5-3B-Instruct"
  max_new_tokens: 512
  temperature: 0.7

创意写作

model:
  default_model: "Qwen/Qwen2.5-7B-Instruct"
  max_new_tokens: 1024
  temperature: 0.9
  top_p: 0.95

代码生成

model:
  default_model: "Qwen/Qwen2.5-7B-Instruct"
  max_new_tokens: 2048
  temperature: 0.3
  top_p: 0.8

更多资源