精选文章

📚 精选阅读

《LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale》
- 论文：https://arxiv.org/abs/2208.07339
- 提出 INT8 量化方法，QLoRA 前身
《GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers》
- 论文：https://arxiv.org/abs/2210.17323
- 单卡量化 70B 模型的核心技术
《AWQ: Activation-Aware Weight Quantization》
- 论文：https://arxiv.org/abs/2306.00978
- 2023 年最新量化方法，效果优于 GPTQ
《QLoRA: Efficient Finetuning of Quantized LLMs》
- 论文：https://arxiv.org/abs/2305.14314
- 结合量化 + LoRA，4bit 可微调 70B
《llama.cpp 量化指南》
- GGUF 格式详解
- GitHub: https://github.com/ggerganov/llama.cpp

🔧 工具推荐

工具	类型	支持格式	特点
llama.cpp	量化框架	GGUF	生态最广，CPU友好
AutoGPTQ	量化框架	GPTQ	使用简单
AutoAWQ	量化框架	AWQ	精度更高
transformers	部署框架	GPTQ/AWQ/gguf	集成度高
vLLM	推理引擎	FP16/INT8	PagedAttention

📖 实践路径

第一步：理解量化基础
├─ FP32 / FP16 / BF16 / INT8 / INT4 的区别
└─ 量化误差来源

第二步：动手量化
├─ 用 llama.cpp 量化一个小模型（7B）
├─ 对比不同精度的大小和质量
└─ 尝试 GPTQ / AWQ

第三步：生产应用
├─ vLLM 部署量化模型
├─ QLoRA 微调
└─ 评估量化精度损失

💡 每日一问

4bit 量化后模型变小 4 倍，但精度损失了多少？

提示：看看 GPTQ/AWQ 的论文实验数据，关注 Perplexity 和下游任务准确率。

相关阅读：模型量化技术：让大模型更轻更快