理解人工智能与学习成果

2026/03/04 08:00阅读量 24

OpenAI 指出当前研究多聚焦于短期考试成绩，缺乏对 AI 如何长期影响学习者认知发展的评估。为此，OpenAI 联合爱沙尼亚塔尔图大学及斯坦福 SCALE 倡议推出了“学习成果测量套件”，旨在建立标准化的纵向研究框架。该套件通过系统指令、交互分类器及多维认知指标，全面衡量 AI 在自主动机、任务坚持度及元认知等方面的深层影响。目前，该套件正在爱沙尼亚等地进行大规模随机对照试验验证，未来将作为公共资源向全球教育体系开放。

Markdown 内容：教育是人工智能最具前景的前沿领域之一。借助 ChatGPT 等工具，个性化学习支持可以随时随地为任何学生提供。然而，教育行业对人工智能对学习成果影响的认知仍处于早期阶段。去年，我们的团队着手研究 study mode（学习模式）等工具的使用情况，并发现学生表现有令人鼓舞的提升。但我们的研究也提出了一个关键问题：我们如何评估人工智能随时间推移对学习者进步的影响，而不仅仅是在期末考试中？这是一个更广泛的生态系统挑战。迄今为止，大多数研究方法都专注于狭窄的表现信号——如考试成绩——缺乏评估学生在现实环境中如何使用人工智能进行学习的能力，以及这种使用方式如何随时间塑造结果。
为填补这一空白，我们开发了学习成果测量套件（Learning Outcomes Measurement Suite），这是一个由爱沙尼亚塔尔图大学（University of Tartu）和斯坦福学习加速器 SCALE 倡议（SCALE Initiative at the Stanford Accelerator for Learning）共同创建的框架，旨在支持跨不同教育背景的学习成果纵向测量。大规模的验证工作正在进行中，这是一项随机对照试验，此外还计划与**学习实验室（Learning Lab）**的创始组织进行进一步的研究，这是 OpenAI 的学习研究生态系统，包括来自亚利桑那州立大学、UCL 知识实验室（UCL Knowledge Lab）和麻省理工学院媒体实验室（MIT Media Lab）的研究人员（基于先前的合作研究）。今天，我们要分享关于该测量套件的工作原理及其重要性的概述。随着时间的推移，我们打算发表更多研究成果，并将该测量套件作为公共资源发布给世界各地的学校、大学和教育系统。

“这项研究使我们能够快速学习，同时也为更深入地理解如何将人工智能以真正有意义的方式深思熟虑地整合到学校中奠定了基础。我们希望了解这些工具如何在支持严谨学术学习的同时，培养高阶思维、创造力、好奇心以及学生作为学习者的自信心。” —— Susanna Loeb，斯坦福大学教授及 SCALE 倡议负责人

要点摘要

当今关于人工智能对学习成果影响的研究方法显示了令人鼓舞的表现信号，但未能捕捉到人工智能随时间推移影响学习成果的全貌。
学习成果测量套件首次提供了一个标准框架，用于纵向研究，帮助教育工作者、研究人员和机构理解人工智能在不同背景下如何塑造学习和成果。
OpenAI 的**学习实验室（Learning Lab）**是一个致力于推进此项工作的新研究生态系统。随着该领域的不断发展，OpenAI 将与一系列合作伙伴共同发布研究成果。

起源与早期研究

当学生使用人工智能工具进行学习和研究时，其含义可能多种多样——从向人工智能寻求快速答案，到利用它像导师一样逐步解决问题。为了鼓励用户以支持深入理解和技能构建的方式与 ChatGPT 互动，OpenAI 去年推出了 study mode（学习模式）。在底层，学习模式由我们编写的自定义系统指令驱动，这些指令是与教师、科学家和教育学专家合作编写的，以反映一套核心行为，这些行为支持真正的学习，而不仅仅是提供答案——通过使用支架式教学、理解检查以及引导练习。
为了测试这种与教育学对齐的人工智能互动风格是否能转化为更好的学习成果，我们对 300 多名准备神经科学和微观经济学考试的大学生进行了随机研究。虽然分析仍在进行中，但初步结果让我们有信心认为，通过如学习模式等功能鼓励的与教育学对齐的人工智能互动风格，可以改善学习成果。但这项研究也揭示了一个重要的现实：关键在于相关的收益和生产力行为是否能持久存在。
研究设计
参与者被分配到三个组之一：控制组使用传统的在线资源（如 Google Search 和 YouTube）进行学习，禁用人工智能生成的概览功能；另外两组则分别获得两种学习模式变体的访问权限，这两种变体以略微不同的方式引导学生完成学习过程。在事前收集了基线测验和入门调查数据，以调整先前课程 exposure、学习习惯、学术自信以及对人工智能工具熟悉程度的差异。学生在每次考试前完成了限时学习模式会话，两种学习模式变体在学科间进行了平衡。这种设置旨在反映现实世界的学习条件，而非严格控制的实验室环境。参与情况不与考试成绩挂钩，并非所有学生在名义上的 40 分钟会话中都同样程度地使用学习模式。这使我们能够测量并报告意向性治疗（ITT）效应，即在现实部署条件下提供工具访问权的影响——换句话说，就是提供学习模式的因果影响，同时承认实际参与度可能会有所不同。
研究发现
我们分别测量了每次考试的绩效。在我们的随机研究中，改进在各学科中并不均匀，且参与者对学习模式的参与水平各不相同。

神经科学（主要 ITT）：相对于控制组，我们观察到学习模式的方向性积极差异，但结果与使用传统在线资源学习的学生无法区分。一些入门和技术问题影响了使用学习模式学生的学习时间。
微观经济学（主要 ITT）：我们观察到，与无人工智能控制组相比，被分配访问学习模式的学生在考试成绩上取得了有意义的提升——相对高出约 15%。

学习模式（变体 A & B）与控制组（无 AI 组）：调整后的平均考试成绩

当我们分别比较每种学习模式变体与控制组时，效果保持一致。虽然这反映了现实世界的变化，但它突显了通常如何衡量学习成果的更深层次局限性。大多数现有的评估方法依赖于在短时间窗口内评估的固定干预措施，使用考试成绩或期末论文等结果作为主要信号。这些方法并非旨在捕捉人工智能在实践中影响学习的核心机制：即随着学习者自身的策略、偏好和学习习惯而不断演变的持续、个性化的互动。它们也无法揭示某项能力（如短期记忆）的改善是否伴随着其他能力（如坚持力、自主动机或创造性问题解决）的权衡。因此，它们错过了最终决定人工智能是否有意义地改善学习的纵向认知效应。
由于学习环境在国家、课程和机构目标之间差异巨大，一次性研究的结果很少能跨系统推广。因此，测量方法必须足够灵活，以便不同的教育系统定义其背景下的成功标准，根据各自的标准评估人工智能，并据此进行迭代。
构建更好的测量系统
基于 OpenAI 学习模式研究的经验教训，我们正在构建一个结构化的测量系统，以大规模衡量人工智能对学习者的影响，并创建一个基于这些结果改进模型的机制。该系统基于三个信号：模型的行为、学习者的反应以及随时间推移产生的可测量的认知结果。它包括：

优化模型行为的系统指令：使用自然语言改变模型的默认行为，使其更好地与特定的教育学方法对齐。
学习交互分类器：自动检测真实、去标识化的学习者 - 模型交互中的“学习时刻”，并标记显著特征，如参与度和错误纠正。
学习质量评分员：评估并标记每个学习时刻，依据是学习者是否实现了其目标，以及交互在多大程度上遵循了强有力的教育学原则，包括识别失败模式。
纵向学习评分员：跟踪同一学习者随时间与模型交互的变化——包括参与度、坚持力和元认知策略——在个人和群体层面。
标准化认知和元认知测量：这些是经过验证的第三方工具，通过 ChatGPT 在访问前/中/后交付，以建立基线并测量基础能力（如批判性思维、创造力和记忆力）的变化。
结合使用时，我们将此测量系统称为学习成果测量套件。它为教育生态系统提供了重要的信号：结构化展示学习时刻的视图、显示各群体随时间推移成果变化的仪表板、模型在教学和辅导标准方面的表现指标，以及与标准化评估和简短学习者问卷相一致的成果指标。在可用情况下，它可以纳入合作伙伴提供的基准事实，如考试成绩、课堂观察或出勤率。
所有数据均已去标识化。它还使我们的合作伙伴能够了解长期使用人工智能进行学习对深层认知的影响，因为通过该系统，我们还能追踪对以下能力的影响：
自主动机：学习者塑造自身学习 vs 被模型指导的程度
生产性参与：教育学互动的频率、多样性和质量
任务坚持力：学习者面对并克服认知挑战的程度
元认知：学习者规划、反思和监控其学习方法的频率和质量
回忆：学习者准确记住先前交互内容的准确性
这反映了我们整体的努力，即不仅关注狭窄的学习成果定义（考试成绩上升），而是关注支撑学习的整体能力。这也反映了我们的信念：在优化目标方面没有银弹：系统和教育工作者需要被赋予权力，以根据最佳教育学实践和方法来指导权衡。

未来的方向

我们在广泛发布之前，正通过大规模研究验证学习成果测量套件。这项工作正在与塔尔图大学和斯坦福 SCALE 倡议合作开展，涉及爱沙尼亚等国家规模的合作伙伴，在该国，该测量套件正在对近 20,000 名 16 至 18 岁的学生进行长达数月的研究。学生使用将在与当地领导人的密切合作下进行，以确保安全性和与本地课程的一致性。

“爱沙尼亚一直将教育视为一个我们不断改进的系统，而不是静态的。随着人工智能成为其中的一部分，最大的问题是如何衡量人工智能对学习的长期影响。这就是我们与 OpenAI 合作正在解决的问题。学生们渴望参与开发过程，许多人希望学习如何利用人工智能支持学习。这感觉像一个真正的转折点，我们很兴奋能提供其他教育系统可以复用和在此基础上构建的方法。” —— Jaan Aru，塔尔图大学
这项工作建立在更广泛的协作研究基础之上……

阅读原文详情

要点摘要

起源与早期研究

学习模式（变体 A & B）与控制组（无 AI 组）：调整后的平均考试成绩

未来的方向

准备好启动您的定制项目了吗？