精选文章

📚 精选阅读

  1. 《LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale》
    • 论文:https://arxiv.org/abs/2208.07339
    • 提出 INT8 量化方法,QLoRA 前身
  2. 《GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers》
    • 论文:https://arxiv.org/abs/2210.17323
    • 单卡量化 70B 模型的核心技术
  3. 《AWQ: Activation-Aware Weight Quantization》
    • 论文:https://arxiv.org/abs/2306.00978
    • 2023 年最新量化方法,效果优于 GPTQ
  4. 《QLoRA: Efficient Finetuning of Quantized LLMs》
    • 论文:https://arxiv.org/abs/2305.14314
    • 结合量化 + LoRA,4bit 可微调 70B
  5. 《llama.cpp 量化指南》
    • GGUF 格式详解
    • GitHub: https://github.com/ggerganov/llama.cpp

🔧 工具推荐

工具 类型 支持格式 特点
llama.cpp 量化框架 GGUF 生态最广,CPU友好
AutoGPTQ 量化框架 GPTQ 使用简单
AutoAWQ 量化框架 AWQ 精度更高
transformers 部署框架 GPTQ/AWQ/gguf 集成度高
vLLM 推理引擎 FP16/INT8 PagedAttention

📖 实践路径

第一步:理解量化基础
├─ FP32 / FP16 / BF16 / INT8 / INT4 的区别
└─ 量化误差来源

第二步:动手量化
├─ 用 llama.cpp 量化一个小模型(7B)
├─ 对比不同精度的大小和质量
└─ 尝试 GPTQ / AWQ

第三步:生产应用
├─ vLLM 部署量化模型
├─ QLoRA 微调
└─ 评估量化精度损失

💡 每日一问

4bit 量化后模型变小 4 倍,但精度损失了多少?

提示:看看 GPTQ/AWQ 的论文实验数据,关注 Perplexity 和下游任务准确率。


相关阅读:模型量化技术:让大模型更轻更快