阿姆斯特丹公平福利AI的高风险实验内幕

AI福利筛查竟成新型歧视工具？阿姆斯特丹53万欧元实验失败引爆争议，公平算法真能实现吗？

荷兰阿姆斯特丹市曾试图打破十年来的算法歧视怪圈，但其失败引发拷问：这类程序真能实现公平吗？（本文由《麻省理工科技评论》、Lighthouse Reports与荷兰《忠诚报》联合调查，普利策中心提供支持）

【核心冲突】从体育老师转型的数字权利倡导者汉斯·德兹瓦特回忆，当看到市政府计划用AI筛查全市福利申请人是否存在欺诈时，”我差点从椅子上摔下来”。2023年2月，这位荷兰顶尖数字权利NGO前负责人发现，名为”智能核查”的系统将通过15项个人特征评估申请风险，他直言：”存在根本性且无法修复的缺陷”。

◆ 关键数据
– 系统训练数据：3,400份历史福利调查案例
– 预期效果：每年减少125起追债案件，节省240万欧元
– 实际投入：至少53.5万欧元（含德勤咨询费）

【双重视角】
项目负责人保罗·德康宁坚信这是”更高效、更公平”的改革，而福利受益者参与委员会则集体抵制。70岁的委员会成员安克·范德弗利特展示厚厚一沓资料：”我们从一开始就不信任它！”该委员会最终退出合作，称该实验”侵犯公民基本权利”。

■ 延伸思考
1. 当算法纠偏手段（如数据重新加权）可能引发新型歧视时，技术优化的边界在哪里？
2. 在福利分配这种涉及生存权的领域，是否应该完全禁止预测性算法的使用？

【技术困局】
系统在测试阶段暴露出严重缺陷：
– 初始版本误标非荷兰籍申请人概率高2倍
– 调整后却转向误标荷兰籍申请人和女性
– 内部测试显示对有子女申请者存在隐性偏见

“我们使用了所有’负责任AI’工具包里的方法，”德兹瓦特指出，”但本质上仍是个糟糕的主意。”2023年11月，社会事务官员鲁特格·格罗特·瓦辛克在市政厅宣布终止试点，承认”无法证明系统不存在歧视”。

▲ 深层悖论
– 传统人工审核系统本身存在对女性和荷兰籍申请人的偏见
– 停用算法后，市政府回归的正是这套有缺陷的人工系统
– 伦理AI顾问陈嘉豪质疑：”为何对AI系统的标准高于人类决策者？”

【历史阴影】
调查追溯至1984年”牙刷计数员”丑闻——福利调查员曾监视单身母亲与男性交往。如今35,000名福利领取者仍生活在系统性怀疑中。”政府不信任人民，人民也不信任政府，”资深福利律师马克·范霍夫总结道。2019年儿童福利算法丑闻导致内阁总辞职，更凸显技术治理的敏感性。

◇ 未解之问
阿姆斯特丹市议员伊丽莎白·伊姆克提出：”我们是否该开发寻找应得未得福利者的算法？”该项目耗费数年人力与超50万欧元资金，最终暴露出技术治理中更本质的难题——当”公平”存在数十种数学定义时，谁有权决定采用哪种标准？

（调查团队：Eileen Guo/《麻省理工科技评论》高级记者 Gabriel Geiger/Justin-Casimir Braun Lighthouse Reports调查记者事实核查：Alice Milliken）

阅读 Technology Review 的原文，点击链接。

您错过了