十年ICML 十次思想浪潮:AI开始追问“为谁而算”
文章梳理了ICML 2016-2025年间十场标志性演讲,展现了AI领域从相信算法万能、数据驱动,转向对目标函数、数据公平性、人机权力分配、开源战略和最终“为谁而算”的深层反思。每场演讲都像一粒时间胶囊,记录着学科思想从技术乐观到伦理质疑的变迁。
2016·纽约 | David Silver:深度强化学习的黎明
2016年ICML上,AlphaGo首席架构师David Silver用66页幻灯片系统阐述了深度强化学习的路线:深度网络负责感知,强化学习负责决策,合在一起构成通用问题求解器。他传递的核心信念是:只要奖励函数定义足够好,强化学习就能在任何任务上超越人类。AlphaGo击败李世石后的乐观情绪,让公众和资本相信AI解决一切只是算力和工程问题。
2017·悉尼 | Sylvain Gelly & David Silver:一个精准兑现的十年赌约
ICML Test of Time Award颁给了Gelly和Silver十年前关于MCTS与价值函数融合的论文——这正是AlphaGo的底层逻辑。Gelly展示了计算机围棋从2007年到2017年Elo等级分从1800涨至4500的上升曲线,并讲述了一个赌约:十年内计算机围棋击败人类职业棋手,最终由AlphaGo提前一年兑现。他也指出一个悖论:更强的策略网络反而让搜索变窄,局部越好越容易错过全局。
2018·斯德哥尔摩 | Dawn Song:深度学习是一座沙堡
剑桥分析丑闻爆发的背景下,Dawn Song展示了深度学习的结构性脆弱:一张熊猫图片加微小噪声后被识别为长臂猿;通过查询API即可窃取商业图像分类模型;在训练阶段植入后门,让自动驾驶将停车标志误读为限速标志。她指出,能力提升与脆弱性认知之间存在危险的剪刀差,部署越急,风险越大。这个预言后来演变为Prompt Injection和模型蒸馏等新问题,但其本质不变:深度的地基是脆弱的。
2019·长滩 | Alison Gopnik:大模型不是智能
发展心理学家Alison Gopnik的演讲《四岁小孩能做什么而AI还不能》指出,大语言模型不是智能体,而是“文化技术”——像图书馆一样让个体获取其他人类积累的知识。她尖锐对比:儿童做“真相发现”,会自己设计因果实验;而“ChatGPT不是产生幻觉,它只是不在乎真假,其目标函数里没有这个维度”。这一判断在2023年ChatGPT编造法庭判例和虚假指控时被反复证实。
2020·线上 | Brenna Argall:当算法进入人的身体,谁在适应谁
COVID期间,Brenna Argall在虚拟会议上探讨辅助自主技术。她翻转传统逻辑:真正的辅助自主不是让机器替人做更多决定,而是让人保持对自己身体和行动的掌控权。她量化了“感知控制感”,把功率分配变成可优化变量。核心论点:每一个自动化决策都意味着收回人的一部分能动性,辅助自主的核心不是技术问题,而是权力如何在人和机器之间分配。
2021·线上 | Daphne Koller:AI制药的数据贫困
mRNA疫苗和AlphaFold 2成功的背景下,Daphne Koller将镜头转向制药业基础设施。她指出,传统药物开发平均10年、26亿美元、90%失败率,而AI制药的最大瓶颈不是算法,是数据:制药业最关键的细胞表型数据仍停留在手工显微镜观察,几十年湿实验数据格式不兼容、元数据缺失,“有些还在纸质实验记录本上”。她的解决方案是自动化湿实验室生成标准化数据。她提醒:在事关生命的领域,数据贫困仍是比算法瓶颈更根本的约束。
2022·巴尔的摩 | Regina Barzilay:我们是否在解决正确的问题
Regina Barzilay以医疗AI为例,揭露大量论文在优化一个与真实世界“相关”但远不等于真实的代理变量——如医院再入院率预测。她指出,在别人定义的问题上跑分是擅长的,定义正确的问题才是最难的部分。四个月后ChatGPT发布,这个问题很快从医疗AI蔓延至整个AI领域。
2023·檀香山 | Marzyeh Ghassemi:健康标签里的结构性暴力
Marzyeh Ghassemi展示了一项研究:用700万张胸部X光片训练模型判断病人是否“健康到可以回家”,准确率很高,但无法部署。因为训练数据中“健康”标签分布不均——有色人种患者因更晚就医而被更少标记为“无异常”。如果部署,模型会系统性地将更多少数族裔患者留在急诊室,而医生不会察觉,因为模型在验证集上表现很好。她揭示了一个残酷事实:在某些场景下,用于训练“正确”标签的数据本身就是历史不平等投射的结果。
2024·维也纳 | Soumith Chintala:开源不是慈善,是战略
PyTorch缔造者Soumith Chintala拆解了开源叙事:“让你的互补品大众化”——如果开源对竞争对手的伤害远大于对自己,那就开源它。他用六个角色勾勒利益格局:学者、大公司、AGI创业公司、垂直AI创业者、黑客、普通用户,每一方都在跑自己的多目标优化函数。他判断AGI还很远,开放能加速一切,并坦言选择源于一个可被质疑的假设,而非道德优越感。
2025·温哥华 | Anca Dragan:奖励函数究竟是谁写的
Anca Dragan播放了一段机器人机械臂举杯子被手压下又再次举起的视频,指出“不是机器人笨,是奖励函数在逼它做它认为‘正确’的事,但我们定义的‘正确’和人类想的根本不在一个频道”。她提出一套分类法,将十年间所有被忽视的追问收束:该优化什么?谁在写规则?为了谁的利益?又付出谁的代价?
