AI福利筛查竟成新型歧视工具?阿姆斯特丹53万欧元实验失败引爆争议,公平算法真能实现吗?

Inside Amsterdam’s high-stakes experiment to create fair welfare AI

荷兰阿姆斯特丹市曾试图打破十年来的算法歧视怪圈,但其失败引发拷问:这类程序真能实现公平吗?(本文由《麻省理工科技评论》、Lighthouse Reports与荷兰《忠诚报》联合调查,普利策中心提供支持)

【核心冲突】从体育老师转型的数字权利倡导者汉斯·德兹瓦特回忆,当看到市政府计划用AI筛查全市福利申请人是否存在欺诈时,”我差点从椅子上摔下来”。2023年2月,这位荷兰顶尖数字权利NGO前负责人发现,名为”智能核查”的系统将通过15项个人特征评估申请风险,他直言:”存在根本性且无法修复的缺陷”。

◆ 关键数据
– 系统训练数据:3,400份历史福利调查案例
– 预期效果:每年减少125起追债案件,节省240万欧元
– 实际投入:至少53.5万欧元(含德勤咨询费)

【双重视角】
项目负责人保罗·德康宁坚信这是”更高效、更公平”的改革,而福利受益者参与委员会则集体抵制。70岁的委员会成员安克·范德弗利特展示厚厚一沓资料:”我们从一开始就不信任它!”该委员会最终退出合作,称该实验”侵犯公民基本权利”。

■ 延伸思考
1. 当算法纠偏手段(如数据重新加权)可能引发新型歧视时,技术优化的边界在哪里?
2. 在福利分配这种涉及生存权的领域,是否应该完全禁止预测性算法的使用?

【技术困局】
系统在测试阶段暴露出严重缺陷:
– 初始版本误标非荷兰籍申请人概率高2倍
– 调整后却转向误标荷兰籍申请人和女性
– 内部测试显示对有子女申请者存在隐性偏见

“我们使用了所有’负责任AI’工具包里的方法,”德兹瓦特指出,”但本质上仍是个糟糕的主意。”2023年11月,社会事务官员鲁特格·格罗特·瓦辛克在市政厅宣布终止试点,承认”无法证明系统不存在歧视”。

▲ 深层悖论
– 传统人工审核系统本身存在对女性和荷兰籍申请人的偏见
– 停用算法后,市政府回归的正是这套有缺陷的人工系统
– 伦理AI顾问陈嘉豪质疑:”为何对AI系统的标准高于人类决策者?”

【历史阴影】
调查追溯至1984年”牙刷计数员”丑闻——福利调查员曾监视单身母亲与男性交往。如今35,000名福利领取者仍生活在系统性怀疑中。”政府不信任人民,人民也不信任政府,”资深福利律师马克·范霍夫总结道。2019年儿童福利算法丑闻导致内阁总辞职,更凸显技术治理的敏感性。

◇ 未解之问
阿姆斯特丹市议员伊丽莎白·伊姆克提出:”我们是否该开发寻找应得未得福利者的算法?”该项目耗费数年人力与超50万欧元资金,最终暴露出技术治理中更本质的难题——当”公平”存在数十种数学定义时,谁有权决定采用哪种标准?

(调查团队:Eileen Guo/《麻省理工科技评论》高级记者 Gabriel Geiger/Justin-Casimir Braun Lighthouse Reports调查记者 事实核查:Alice Milliken)

阅读 Technology Review 的原文,点击链接

Simon