📚 精选阅读
- MTEB 排行榜
- 全球最权威的 Embedding 评估基准
- 链接:https://huggingface.co/spaces/mteb/leaderboard
- 《BGE 模型详解》
- 国产最强开源 Embedding 模型
- 论文:https://arxiv.org/abs/2309.07597
- 《M3E 模型技术报告》
- Moka AI 开源的中文 Embedding
- GitHub: https://github.com/moka-guys/m3e
- 《OpenAI Embedding 官方文档》
- text-embedding-3 系列完整指南
- 链接:https://platform.openai.com/docs/guides/embeddings
- 《Cohere Embedding v3》
- 多语言支持最好的商业方案
- 博客:Cohere 官方博客
🔧 工具与库
| 工具 | 说明 |
|---|---|
| sentence-transformers | 开源模型推理框架 |
| LangChain | Embedding + Vector DB 集成 |
| FAISS | Facebook 高效向量检索 |
| Milvus/Pinecone | 向量数据库 |
| txtai | All-in-one 向量搜索框架 |
📖 实践路径
第一步:了解 Embedding 基础
├─ 什么是向量嵌入
├─ 余弦相似度计算
└─ MTEB 排行榜浏览
第二步:选型与测试
├─ 确定你的语言(中/英/双语)
├─ 确定你的场景(通用/垂直)
└─ 用自己的数据测试 2-3 个候选模型
第三步:部署与优化
├─ 本地部署 vs API 调用
├─ 分块策略优化
└─ 混合检索 + 重排序
💡 每日一问
Embedding 模型的维度是越高越好吗?
提示:text-embedding-3-large 有 3072 维,而 bge-large 只有 1024 维。但 MTEB 得分差距不大。为什么?
相关阅读:Embedding 模型选型指南