火猫 AI

苹果研究：混合提取器策略让 LLM 预训练数据量激增 71%

2026/02/24 08:00阅读量 19

别只用一种工具抓网页文字，混合使用多种提取器能获得更多高质量训练数据。解决了单一提取器导致大量有效网页内容被遗漏，以及结构化数据（表格/代码）提取质量差的问题。在不降低模型性能前提下，token 产出提升 71%；显著提升表格和代码任务表现，低成本扩大数据护城河。

暂无可展示正文

准备好启动您的定制项目了吗？

现在咨询，即可获得免费的业务梳理与技术架构建议方案。