苹果研究:混合提取器策略让 LLM 预训练数据量激增 71%

2026/02/24 08:00阅读量 6

别只用一种工具抓网页文字,混合使用多种提取器能获得更多高质量训练数据。 解决了单一提取器导致大量有效网页内容被遗漏,以及结构化数据(表格/代码)提取质量差的问题。 在不降低模型性能前提下,token 产出提升 71%;显著提升表格和代码任务表现,低成本扩大数据护城河。

暂无可展示正文

来源:Apple Machine Learning Research
返回列表

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。