📚 精选阅读
- 《Attention Is All You Need》 — Transformer 原始论文,理解注意力机制必读
- 论文:https://arxiv.org/abs/1706.03762
- 《Rotary Position Embedding (RoPE)》 — 位置编码外推核心技术
- 博客:https://arxiv.org/abs/2104.09864
- 《Longformer》 — 稀疏注意力代表工作
- 论文:https://arxiv.org/abs/2004.05150
- 《StreamingLLM》 — 无限长度生成的关键技术
- 论文:https://arxiv.org/abs/2309.17453
- 《KIVI: 4bit KV Cache》 — 实用量化压缩方案
- 论文:https://arxiv.org/abs/2402.10033
🔧 实践资源
- Hugging Face Transformers — 内置 RoPE、ALiBi 位置编码支持
- Flash Attention v2 — 高效注意力实现,O(n²) 优化到 O(n)
- vLLM — PagedAttention 实现 KV Cache 管理,支持超长上下文
📖 相关学习路径
1. Transformer 基础 → Attention 机制
2. 位置编码演进 → Sinusoidal → RoPE → ALiBi
3. Long-Context 优化 → 稀疏注意力 → 量化压缩
4. 实战项目 → 构建本地知识库 RAG 系统
💡 每日一问
为什么 Long-Context 场景下「大海捞针」测试很重要?
提示:想象在一本1000页的书里找一个特定句子,大模型能准确定位吗?
相关阅读:AI-今日资讯:上下文窗口技术解析