一家中国公司刚刚推出了一套不断变化的AI基准测试

中国AI评测新突破！红杉资本Xbench开源，ChatGPT-3霸榜，商业实战测试震撼登场，AI行业要变天了吗？

A Chinese firm has just launched a constantly changing set of AI benchmarks

【中国风投机构发布AI评测新基准Xbench！ChatGPT-3全面领跑】

由红杉资本中国基金（HongShan Capital Group）开发的AI评测基准Xbench本周正式开源部分题库，向公众免费开放。这一创新工具不仅测试模型的学术能力，更首次将「真实商业场景任务」纳入评估体系，试图破解AI”死记硬背”的行业难题！

▌双轨评测：学术+实战双维度
• 学术能力测试
– Xbench-ScienceQA：涵盖生化、轨道力学等领域的硕士级STEM考题，由研究生命题、教授复核，重点考察推理链完整性
– Xbench-DeepResearch：10位专家设计的100道中文网络深度研究题（如上述边境城市问题），强调多源验证与数据诚实性

• 商业价值测试
– 已开放招聘/营销场景任务：
▶ 从800+网红中匹配广告主与短视频创作者
▶ 筛选5名电池工程师候选人并说明理由
– 即将上线金融、法律等专业领域题库（暂未开源）

【幕后】红杉自2022年ChatGPT爆发后启动该项目，由合伙人宫源牵头组建含外部专家的团队，计划每季度更新题库并保持50%非公开数据。

「延伸思考」
1. 当AI评测标准由投资机构而非学术组织制定，会如何影响行业发展方向？
2. 中文网络深度研究能力测试是否暗示”本土化AI”将成为下一个竞争焦点？

阅读 Technology Review 的原文，点击链接。

一家中国公司刚刚推出了一套不断变化的AI基准测试

由 Simon

您错过了

信用合作社、金融科技与金融服务的人工智能拐点

摩根大通将人工智能支出视为核心基础设施

The Download：美国数字权利打击行动与人工智能伴侣

超越试点项目：迈向可组合与主权人工智能

Recent Post

一家中国公司刚刚推出了一套不断变化的AI基准测试

由 Simon

相关文章

The Download：美国数字权利打击行动与人工智能伴侣

超越试点项目：迈向可组合与主权人工智能

因打击网络仇恨而被美国禁止入境是什么感受

您错过了

信用合作社、金融科技与金融服务的人工智能拐点

摩根大通将人工智能支出视为核心基础设施

The Download：美国数字权利打击行动与人工智能伴侣

超越试点项目：迈向可组合与主权人工智能