📚 精选阅读
- 《LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale》
- 论文:https://arxiv.org/abs/2208.07339
- 提出 INT8 量化方法,QLoRA 前身
- 《GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers》
- 论文:https://arxiv.org/abs/2210.17323
- 单卡量化 70B 模型的核心技术
- 《AWQ: Activation-Aware Weight Quantization》
- 论文:https://arxiv.org/abs/2306.00978
- 2023 年最新量化方法,效果优于 GPTQ
- 《QLoRA: Efficient Finetuning of Quantized LLMs》
- 论文:https://arxiv.org/abs/2305.14314
- 结合量化 + LoRA,4bit 可微调 70B
- 《llama.cpp 量化指南》
- GGUF 格式详解
- GitHub: https://github.com/ggerganov/llama.cpp
🔧 工具推荐
| 工具 | 类型 | 支持格式 | 特点 |
|---|---|---|---|
| llama.cpp | 量化框架 | GGUF | 生态最广,CPU友好 |
| AutoGPTQ | 量化框架 | GPTQ | 使用简单 |
| AutoAWQ | 量化框架 | AWQ | 精度更高 |
| transformers | 部署框架 | GPTQ/AWQ/gguf | 集成度高 |
| vLLM | 推理引擎 | FP16/INT8 | PagedAttention |
📖 实践路径
第一步:理解量化基础
├─ FP32 / FP16 / BF16 / INT8 / INT4 的区别
└─ 量化误差来源
第二步:动手量化
├─ 用 llama.cpp 量化一个小模型(7B)
├─ 对比不同精度的大小和质量
└─ 尝试 GPTQ / AWQ
第三步:生产应用
├─ vLLM 部署量化模型
├─ QLoRA 微调
└─ 评估量化精度损失
💡 每日一问
4bit 量化后模型变小 4 倍,但精度损失了多少?
提示:看看 GPTQ/AWQ 的论文实验数据,关注 Perplexity 和下游任务准确率。
相关阅读:模型量化技术:让大模型更轻更快