RAG深度解析:分块、向量化、召回、重排如何实现“知识蒸馏”
2026/05/06 08:38阅读量 2
本文对比了Skill与RAG的区别:Skill复制流程,RAG实现知识调用。详细拆解了企业知识库建设的离线阶段(文档解析、清洗、分块、索引)与在线检索链路(查询改写、召回、重排、TopK等),指出80%的效果问题源于文档质量与分块策略,并给出了具体的调优法则。
离线阶段:数据入库
- 文档解析:PDF需处理文本层或OCR,Markdown是最佳格式(解析成功率比扫描件高80%)。
- 数据清洗:去除页眉页脚、URL、多余换行等噪音,未经整理的文档会导致“垃圾进垃圾出”。
- 分块策略:递归分块效果最佳;父子分块可同时满足检索精度(子块)和回答完整性(父块)。
- 索引建立:向量索引(高质量模式)支持语义检索,关键词索引(经济模式)适合精确匹配。
在线阶段:检索生成
- 查询改写:将口语问题标准化(如“不要了”→ “退货政策”)。
- 知识库选择:多库检索避免遗漏交叉规则。
- 召回策略:混合检索(向量+全文)初期效果最佳。
- 重排优化:Rerank模型可使准确率提升30-50%,但成本增加。
- Top K控制:政策类建议3-5条,技术文档5-8条。
- Score阈值:0.5-0.7为安全区间,高风险场景应保守设置。
- 上下文拼接:必须包含“依据来源”和“资料不足声明”。
效果调优黄金法则
- 80%问题源于文档质量和分块策略。
- 调优顺序:文档质量 → 分块 → 索引 → 检索 → 重排 → 过滤参数。
- 企业知识库建议优先测试结构化分块(按条款/FAQ切分)。
