精选文章

📚 精选阅读

  1. 《Attention Is All You Need》 — Transformer 原始论文,理解注意力机制必读
    • 论文:https://arxiv.org/abs/1706.03762
  2. 《Rotary Position Embedding (RoPE)》 — 位置编码外推核心技术
    • 博客:https://arxiv.org/abs/2104.09864
  3. 《Longformer》 — 稀疏注意力代表工作
    • 论文:https://arxiv.org/abs/2004.05150
  4. 《StreamingLLM》 — 无限长度生成的关键技术
    • 论文:https://arxiv.org/abs/2309.17453
  5. 《KIVI: 4bit KV Cache》 — 实用量化压缩方案
    • 论文:https://arxiv.org/abs/2402.10033

🔧 实践资源

  • Hugging Face Transformers — 内置 RoPE、ALiBi 位置编码支持
  • Flash Attention v2 — 高效注意力实现,O(n²) 优化到 O(n)
  • vLLM — PagedAttention 实现 KV Cache 管理,支持超长上下文

📖 相关学习路径

1. Transformer 基础 → Attention 机制
2. 位置编码演进 → Sinusoidal → RoPE → ALiBi
3. Long-Context 优化 → 稀疏注意力 → 量化压缩
4. 实战项目 → 构建本地知识库 RAG 系统

💡 每日一问

为什么 Long-Context 场景下「大海捞针」测试很重要?

提示:想象在一本1000页的书里找一个特定句子,大模型能准确定位吗?


相关阅读:AI-今日资讯:上下文窗口技术解析