一家中国公司刚刚推出了一套不断变化的AI基准测试

中国AI评测新突破!红杉资本Xbench开源,ChatGPT-3霸榜,商业实战测试震撼登场,AI行业要变天了吗?

A Chinese firm has just launched a constantly changing set of AI benchmarks

【中国风投机构发布AI评测新基准Xbench!ChatGPT-3全面领跑】

由红杉资本中国基金(HongShan Capital Group)开发的AI评测基准Xbench本周正式开源部分题库,向公众免费开放。这一创新工具不仅测试模型的学术能力,更首次将「真实商业场景任务」纳入评估体系,试图破解AI”死记硬背”的行业难题!

▌双轨评测:学术+实战双维度
学术能力测试
– Xbench-ScienceQA:涵盖生化、轨道力学等领域的硕士级STEM考题,由研究生命题、教授复核,重点考察推理链完整性
– Xbench-DeepResearch:10位专家设计的100道中文网络深度研究题(如上述边境城市问题),强调多源验证与数据诚实性

商业价值测试
– 已开放招聘/营销场景任务:
▶ 从800+网红中匹配广告主与短视频创作者
▶ 筛选5名电池工程师候选人并说明理由
– 即将上线金融、法律等专业领域题库(暂未开源)

▌首期排行榜亮点
| 类别 | 冠军 | 亚军 | 季军 |
|————|—————|——————–|—————-|
| 综合能力 | ChatGPT-3 | 字节跳动豆包 | Gemini 2.5 Pro |
| 招聘场景 | ChatGPT-3 | Perplexity Search | Claude 3.5 |
| 营销场景 | ChatGPT-3 | Claude/Grok | Gemini |

【幕后】红杉自2022年ChatGPT爆发后启动该项目,由合伙人宫源牵头组建含外部专家的团队,计划每季度更新题库并保持50%非公开数据。

「延伸思考」
1. 当AI评测标准由投资机构而非学术组织制定,会如何影响行业发展方向?
2. 中文网络深度研究能力测试是否暗示”本土化AI”将成为下一个竞争焦点?

阅读 Technology Review 的原文,点击链接

Simon