苹果研究:混合提取器策略让 LLM 预训练数据量激增 71%2026/02/24 08:00阅读量 6别只用一种工具抓网页文字,混合使用多种提取器能获得更多高质量训练数据。 解决了单一提取器导致大量有效网页内容被遗漏,以及结构化数据(表格/代码)提取质量差的问题。 在不降低模型性能前提下,token 产出提升 71%;显著提升表格和代码任务表现,低成本扩大数据护城河。暂无可展示正文阅读原文详情