Apple ML Research 发布 ProText:首个针对长文本性别化与误性别化的基准数据集

2026/03/31 08:00阅读量 2

Apple Machine Learning Research 发布了 ProText,这是一个用于评估长英文文本中性别化(gendering)和误性别化(misgendering)现象的基准数据集。该数据集涵盖主题名词、类别及代词三个维度,旨在测试大语言模型在摘要生成和重写等任务中的性别偏见。验证案例显示,即使在没有明确性别线索或默认异性恋规范假设时,模型仍会表现出系统性的性别偏差。

事件概述

Apple Machine Learning Research 于 2026 年 3 月发布了名为 ProText 的新基准数据集,专门用于测量长篇幅英文文本中的性别化(gendering)与误性别化(misgendering)现象。该研究旨在超越传统的代词消解基准,将评估范围扩展至非二元性别领域,并聚焦于风格多样的长文本。

核心信息

  • 数据集维度:ProText 包含三个关键维度:
    • 主题名词:涵盖人名、职业、头衔及亲属称谓。
    • 主题类别:分为刻板印象男性、刻板印象女性以及性别中立/无性别类别。
    • 代词类别:包括阳性、阴性、性别中立及无代词情况。
  • 应用场景:该数据集主要用于探测大型语言模型(LLM)在进行文本转换任务(如摘要生成和重写)时的表现。
  • 验证结果:通过小型案例研究(仅使用两个提示词和两个模型),研究人员揭示了以下发现:
    • 当输入文本缺乏明确的性别线索时,模型倾向于产生系统性性别偏差。
    • 模型常默认采用异性恋规范(heteronormative assumptions)进行推断,导致误性别化或强化刻板印象。

值得关注

ProText 的发布填补了现有基准在长文本处理及非二元性别评估方面的空白,为量化大模型在复杂语境下的性别公平性提供了新的工具。

来源:Apple Machine Learning Research
返回列表

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。