AI也能当”艺术评论家”?腾讯震撼推出ArtifactsBench测试基准,让机器学会”好品味”,通用模型竟意外击败专业选手!这是否意味着AI审美时代的真正到来?

Tencent improves testing creative AI models with new benchmark

腾讯推出全新AI评测基准ArtifactsBench
——专治AI”审美不在线”的代码生成难题

【行业痛点】当你要求AI生成一个简单网页或图表时,是否常遇到”功能能用但体验糟糕”的窘境?按钮位置错乱、色彩搭配刺眼、动画效果生硬…这些现象暴露出AI开发的核心挑战:如何让机器具备”好品味”?

传统测试仅关注代码功能性,却对”视觉保真度与交互完整性”视而不见。腾讯最新发布的ArtifactsBench正是为此而生——它不仅是测试工具,更是AI生成代码的”自动化艺术评论家”。

🚀技术突破:
• 首创多模态评估管道,覆盖1,825项多样化任务
• 采用MLLM-as-Judge机制评估视觉成果
• 与人类专家评审一致性超90%
• 相较传统自动化基准(69.4%一致性),与权威平台WebDev Arena的排名匹配度高达94.4%

【运行机制揭秘】
1️⃣ 从1800+创意任务库(含数据可视化、网页应用、互动小游戏等)抽取题目
2️⃣ 在沙盒环境中自动构建/运行AI生成的代码
3️⃣ 通过时序截图捕捉动态交互表现
4️⃣ 由多模态大模型(MLLM)依据10项指标进行系统评分(含功能、用户体验、美学质量等)

💡意外发现:
在测试全球30余个顶尖AI模型时,通用模型表现反超专业选手!腾讯Qwen-2.5-Instruct击败了自家专精代码的Qwen-2.5-coder和视觉特化模型Qwen2.5-VL。研究团队指出:”优秀视觉应用需要代码能力、视觉理解与设计美学的融合,这正是通用模型逐渐展现的全方位智能。”

延伸思考:
• 当AI开始具备”审美判断力”,人类设计师的角色将如何演变?
• 通用模型与垂直模型的边界是否正在被重新定义?

(本文部分信息引自腾讯Hunyuan3D-PolyGen模型报道。更多AI前沿动态,可关注阿姆斯特丹/加州/伦敦举办的AI & Big Data Expo系列活动。)

阅读 ArtificialIntelligence News 的原文,点击链接

Simon