十年ICML 十次思想浪潮：AI开始追问“为谁而算”

2026/07/02 13:36阅读量 2

文章梳理了ICML 2016-2025年间十场标志性演讲，展现了AI领域从相信算法万能、数据驱动，转向对目标函数、数据公平性、人机权力分配、开源战略和最终“为谁而算”的深层反思。每场演讲都像一粒时间胶囊，记录着学科思想从技术乐观到伦理质疑的变迁。

2016·纽约 | David Silver：深度强化学习的黎明

2016年ICML上，AlphaGo首席架构师David Silver用66页幻灯片系统阐述了深度强化学习的路线：深度网络负责感知，强化学习负责决策，合在一起构成通用问题求解器。他传递的核心信念是：只要奖励函数定义足够好，强化学习就能在任何任务上超越人类。AlphaGo击败李世石后的乐观情绪，让公众和资本相信AI解决一切只是算力和工程问题。

2017·悉尼 | Sylvain Gelly & David Silver：一个精准兑现的十年赌约

ICML Test of Time Award颁给了Gelly和Silver十年前关于MCTS与价值函数融合的论文——这正是AlphaGo的底层逻辑。Gelly展示了计算机围棋从2007年到2017年Elo等级分从1800涨至4500的上升曲线，并讲述了一个赌约：十年内计算机围棋击败人类职业棋手，最终由AlphaGo提前一年兑现。他也指出一个悖论：更强的策略网络反而让搜索变窄，局部越好越容易错过全局。

2018·斯德哥尔摩 | Dawn Song：深度学习是一座沙堡

剑桥分析丑闻爆发的背景下，Dawn Song展示了深度学习的结构性脆弱：一张熊猫图片加微小噪声后被识别为长臂猿；通过查询API即可窃取商业图像分类模型；在训练阶段植入后门，让自动驾驶将停车标志误读为限速标志。她指出，能力提升与脆弱性认知之间存在危险的剪刀差，部署越急，风险越大。这个预言后来演变为Prompt Injection和模型蒸馏等新问题，但其本质不变：深度的地基是脆弱的。

2019·长滩 | Alison Gopnik：大模型不是智能

发展心理学家Alison Gopnik的演讲《四岁小孩能做什么而AI还不能》指出，大语言模型不是智能体，而是“文化技术”——像图书馆一样让个体获取其他人类积累的知识。她尖锐对比：儿童做“真相发现”，会自己设计因果实验；而“ChatGPT不是产生幻觉，它只是不在乎真假，其目标函数里没有这个维度”。这一判断在2023年ChatGPT编造法庭判例和虚假指控时被反复证实。

2020·线上 | Brenna Argall：当算法进入人的身体，谁在适应谁

COVID期间，Brenna Argall在虚拟会议上探讨辅助自主技术。她翻转传统逻辑：真正的辅助自主不是让机器替人做更多决定，而是让人保持对自己身体和行动的掌控权。她量化了“感知控制感”，把功率分配变成可优化变量。核心论点：每一个自动化决策都意味着收回人的一部分能动性，辅助自主的核心不是技术问题，而是权力如何在人和机器之间分配。

2021·线上 | Daphne Koller：AI制药的数据贫困

mRNA疫苗和AlphaFold 2成功的背景下，Daphne Koller将镜头转向制药业基础设施。她指出，传统药物开发平均10年、26亿美元、90%失败率，而AI制药的最大瓶颈不是算法，是数据：制药业最关键的细胞表型数据仍停留在手工显微镜观察，几十年湿实验数据格式不兼容、元数据缺失，“有些还在纸质实验记录本上”。她的解决方案是自动化湿实验室生成标准化数据。她提醒：在事关生命的领域，数据贫困仍是比算法瓶颈更根本的约束。

2022·巴尔的摩 | Regina Barzilay：我们是否在解决正确的问题

Regina Barzilay以医疗AI为例，揭露大量论文在优化一个与真实世界“相关”但远不等于真实的代理变量——如医院再入院率预测。她指出，在别人定义的问题上跑分是擅长的，定义正确的问题才是最难的部分。四个月后ChatGPT发布，这个问题很快从医疗AI蔓延至整个AI领域。

2023·檀香山 | Marzyeh Ghassemi：健康标签里的结构性暴力

Marzyeh Ghassemi展示了一项研究：用700万张胸部X光片训练模型判断病人是否“健康到可以回家”，准确率很高，但无法部署。因为训练数据中“健康”标签分布不均——有色人种患者因更晚就医而被更少标记为“无异常”。如果部署，模型会系统性地将更多少数族裔患者留在急诊室，而医生不会察觉，因为模型在验证集上表现很好。她揭示了一个残酷事实：在某些场景下，用于训练“正确”标签的数据本身就是历史不平等投射的结果。

2024·维也纳 | Soumith Chintala：开源不是慈善，是战略

PyTorch缔造者Soumith Chintala拆解了开源叙事：“让你的互补品大众化”——如果开源对竞争对手的伤害远大于对自己，那就开源它。他用六个角色勾勒利益格局：学者、大公司、AGI创业公司、垂直AI创业者、黑客、普通用户，每一方都在跑自己的多目标优化函数。他判断AGI还很远，开放能加速一切，并坦言选择源于一个可被质疑的假设，而非道德优越感。

2025·温哥华 | Anca Dragan：奖励函数究竟是谁写的

Anca Dragan播放了一段机器人机械臂举杯子被手压下又再次举起的视频，指出“不是机器人笨，是奖励函数在逼它做它认为‘正确’的事，但我们定义的‘正确’和人类想的根本不在一个频道”。她提出一套分类法，将十年间所有被忽视的追问收束：该优化什么？谁在写规则？为了谁的利益？又付出谁的代价？

阅读原文详情