精选文章

📚 精选阅读

MTEB 排行榜
- 全球最权威的 Embedding 评估基准
- 链接：https://huggingface.co/spaces/mteb/leaderboard
《BGE 模型详解》
- 国产最强开源 Embedding 模型
- 论文：https://arxiv.org/abs/2309.07597
《M3E 模型技术报告》
- Moka AI 开源的中文 Embedding
- GitHub: https://github.com/moka-guys/m3e
《OpenAI Embedding 官方文档》
- text-embedding-3 系列完整指南
- 链接：https://platform.openai.com/docs/guides/embeddings
《Cohere Embedding v3》
- 多语言支持最好的商业方案
- 博客：Cohere 官方博客

🔧 工具与库

工具	说明
sentence-transformers	开源模型推理框架
LangChain	Embedding + Vector DB 集成
FAISS	Facebook 高效向量检索
Milvus/Pinecone	向量数据库
txtai	All-in-one 向量搜索框架

📖 实践路径

第一步：了解 Embedding 基础
├─ 什么是向量嵌入
├─ 余弦相似度计算
└─ MTEB 排行榜浏览

第二步：选型与测试
├─ 确定你的语言（中/英/双语）
├─ 确定你的场景（通用/垂直）
└─ 用自己的数据测试 2-3 个候选模型

第三步：部署与优化
├─ 本地部署 vs API 调用
├─ 分块策略优化
└─ 混合检索 + 重排序

💡 每日一问

Embedding 模型的维度是越高越好吗？

提示：text-embedding-3-large 有 3072 维，而 bge-large 只有 1024 维。但 MTEB 得分差距不大。为什么？

相关阅读：Embedding 模型选型指南