精选文章

📚 精选阅读

《Attention Is All You Need》 — Transformer 原始论文，理解注意力机制必读
- 论文：https://arxiv.org/abs/1706.03762
《Rotary Position Embedding (RoPE)》 — 位置编码外推核心技术
- 博客：https://arxiv.org/abs/2104.09864
《Longformer》 — 稀疏注意力代表工作
- 论文：https://arxiv.org/abs/2004.05150
《StreamingLLM》 — 无限长度生成的关键技术
- 论文：https://arxiv.org/abs/2309.17453
《KIVI: 4bit KV Cache》 — 实用量化压缩方案
- 论文：https://arxiv.org/abs/2402.10033

🔧 实践资源

Hugging Face Transformers — 内置 RoPE、ALiBi 位置编码支持
Flash Attention v2 — 高效注意力实现，O(n²) 优化到 O(n)
vLLM — PagedAttention 实现 KV Cache 管理，支持超长上下文

📖 相关学习路径

Transformer 基础 → Attention 机制
位置编码演进 → Sinusoidal → RoPE → ALiBi
Long-Context 优化 → 稀疏注意力 → 量化压缩
实战项目 → 构建本地知识库 RAG 系统

💡 每日一问

为什么 Long-Context 场景下「大海捞针」测试很重要？

提示：想象在一本1000页的书里找一个特定句子，大模型能准确定位吗？

相关阅读：AI-今日资讯：上下文窗口技术解析