Apple ML Research 发布 mAceReason-Math:面向 RLVR 的高质量多语言数学数据集
Apple Machine Learning Research 发布了 mAceReason-Math,这是一个专为强化学习可验证奖励(RLVR)训练设计的高质量多语言数学问题数据集。该数据集源自 AceReason-Math 语料库,包含 14 种语言的翻译内容,每种语言超过 10,000 个样本,旨在解决现有数据以英语为中心且难度不足的问题。通过清洗和优化翻译质量,该数据集为社区提供了进行多语言 RLVR 研究和基准测试的可靠资源。
mAceReason-Math: 面向 RLVR 的高质量多语言数学数据集
事件概述
针对当前强化学习可验证奖励(Reinforcement Learning with Verifiable Rewards, RLVR)研究在数学和逻辑领域主要依赖英语数据、且现有数据集难度不足以支撑当前模型训练的痛点,Apple Machine Learning Research 团队推出了 mAceReason-Math 数据集。
核心信息
- 数据来源与构建:数据集基于专门策划用于 RLVR 的 AceReason-Math 语料库,经过高质量的翻译、清洗和优化处理。
- 语言覆盖:涵盖 14 种语言,每种语言包含超过 10,000 个 样本,总计数万条高质量数学问题。
- 设计目标:
- 填补多语言 RLVR 训练数据的空白,打破现有数据“英语中心主义”的局限。
- 提供足够高的难度水平,确保能为当前大模型提供有效的训练信号。
- 支持多语言环境下的 RLVR 研究与基准测试(Benchmarking)。
- 作者贡献:由 Konstantin Dobler、Simon Lehnerer、Federico Scozzafava、Jonathan Janke 及 Mohamed Ali 等研究人员共同完成(部分工作于 Hasso Plattner Institute & ELLIS Unit Potsdam 期间开展)。
值得关注
该数据集的发布标志着多语言大模型在数学推理领域的训练资源进一步丰富。通过提供经过严格筛选和优化的非英语数学难题,mAceReason-Math 有助于评估和改进模型在非英语语境下的逻辑推理能力,推动 RLVR 技术在更广泛语言场景中的应用。
