Apple ML Research 发布 ProText：首个针对长文本性别化与误性别化的基准数据集

2026/03/31 08:00阅读量 44

Apple Machine Learning Research 发布了 ProText，这是一个用于评估长英文文本中性别化（gendering）和误性别化（misgendering）现象的基准数据集。该数据集涵盖主题名词、类别及代词三个维度，旨在测试大语言模型在摘要生成和重写等任务中的性别偏见。验证案例显示，即使在没有明确性别线索或默认异性恋规范假设时，模型仍会表现出系统性的性别偏差。

事件概述

Apple Machine Learning Research 于 2026 年 3 月发布了名为 ProText 的新基准数据集，专门用于测量长篇幅英文文本中的性别化（gendering）与误性别化（misgendering）现象。该研究旨在超越传统的代词消解基准，将评估范围扩展至非二元性别领域，并聚焦于风格多样的长文本。

核心信息

数据集维度：ProText 包含三个关键维度：
- 主题名词：涵盖人名、职业、头衔及亲属称谓。
- 主题类别：分为刻板印象男性、刻板印象女性以及性别中立/无性别类别。
- 代词类别：包括阳性、阴性、性别中立及无代词情况。
应用场景：该数据集主要用于探测大型语言模型（LLM）在进行文本转换任务（如摘要生成和重写）时的表现。
验证结果：通过小型案例研究（仅使用两个提示词和两个模型），研究人员揭示了以下发现：
- 当输入文本缺乏明确的性别线索时，模型倾向于产生系统性性别偏差。
- 模型常默认采用异性恋规范（heteronormative assumptions）进行推断，导致误性别化或强化刻板印象。

值得关注

ProText 的发布填补了现有基准在长文本处理及非二元性别评估方面的空白，为量化大模型在复杂语境下的性别公平性提供了新的工具。

阅读原文详情

事件概述

核心信息

值得关注

准备好启动您的定制项目了吗？