百度AI竟超越GPT与Gemini?轻量化模型以30亿参数实现多模态突破,震撼解析电路图纸与生产线数据,企业级智能时代已来临!

百度最新推出的ERNIE多模态大模型在关键基准测试中表现优异,超越GPT与Gemini。该模型专注于处理常被纯文本模型忽视的企业多维数据,为工程图纸、生产线监控、医疗影像和物流看板等非结构化数据提供智能解析方案。
【核心突破】ERNIE-4.5-VL-28B-A3B-Thinking采用轻量化架构,仅激活30亿参数即可实现多模态认知,显著降低推理成本。其创新之处在于将视觉定位与工具调用结合,推动AI从感知走向行动——不仅能识别图像中穿西装的人员并生成JSON坐标,还能自主放大图片读取文字、触发图像搜索,甚至模拟电路分析等专业任务。
实测表现突出:
– 精准解析「高峰时段提示」图表,优化商业场景资源调度
– 运用欧姆定律求解桥式电路,展现工程辅助潜力
– 在多项基准测试中超越GPT-5-High和Gemini 2.5 Pro
企业级应用场景:
▶ 视频智能处理:自动提取会议录像字幕并关联时间戳,支持「桥梁场景」等语义检索
▶ 工业质检:转换视觉识别结果为结构化数据,适配生产线自动化需求
▶ 知识管理:通过工具链实现代码放大检查、内部知识库联动诊断
【部署门槛】需80GB显存单卡配置,配套ERNIEKit支持私有数据微调,采用允许商用的Apache 2.0许可证。当前更适合已具备高性能算力基础的企业。
延伸思考:
1. 当多模态AI能直接操作业务系统时,如何重构人机协作的安全边界?
2. 在降低推理成本与提升精准度的双重要求下,轻量化模型会否成为企业AI部署的主流选择?
阅读 ArtificialIntelligence News 的原文,点击链接。