AI基准测试竟有近100%缺陷率?企业千万预算或被误导性数据吞噬,专家紧急呼吁建立专属评估体系!

Flawed AI benchmarks put enterprise budgets at risk

【AI基准测试存在严重缺陷】最新学术研究指出,当前衡量人工智能能力的基准测试存在系统性漏洞,可能导致企业依据“误导性”数据做出重大决策。该研究分析了445个主流AI会议采用的基准测试,29位专家评审发现近所有测试至少存在一处缺陷,直接影响企业对模型性能的判断。

核心问题揭露
1️⃣ 定义模糊:47.8%的核心概念存在争议性定义。以企业关注的“无害性”指标为例,不同厂商可能使用完全不同的判定标准,导致评分结果失去可比性。

2️⃣ 统计缺失:仅16%的测试使用不确定性评估或统计检验。企业看到的模型间2%性能差异,可能仅是随机波动而非真实能力差距。

3️⃣ 数据污染:GSM8K等常用推理测试的题目可能已出现在模型预训练数据中,高分可能仅反映记忆能力而非真实推理水平。

4️⃣ 样本偏差:27%的测试采用“便利抽样”,例如重复使用现有考题。模型在简单算术题表现优异,却无法应对真实场景中的复杂数值运算。

专家警示
NTT DATA英国数据战略总监Isabella Grandi强调:“单一基准测试无法捕捉AI系统复杂性,企业应建立基于明确原则的持续评估体系。”她指出ISO/IEC 42001:202标准提出的五大核心原则——问责制、公平性、透明度、安全性与可追溯性,应成为评估基石。

延伸思考
• 当基准测试无法真实反映业务场景需求,企业应如何构建专属的AI评估体系?
• 在AI治理框架尚未成熟的背景下,如何平衡技术部署速度与风险评估?

研究团队提出八项改进建议,呼吁企业停止盲目相信通用基准测试,转而建立符合自身需求的评估机制。随着企业投入千万至亿美元级预算开发生成式AI,构建可靠的内部评估体系已成为规避财务与声誉风险的关键。

阅读 ArtificialIntelligence News 的原文,点击链接

Simon