OpenAI发布最强专业模型GPT-5.4 原生电脑操控功能突破边界
OpenAI发布最强专业模型GPT-5.4 原生电脑操控功能突破边界!OpenAI发布了全新的旗舰基础模型GPT-5.4,该模型在ChatGPT、API以及开发工具Codex中同步上线。OpenAI称GPT-5.4是“迄今能力最强、最高效的专业工作前沿模型”,重点面向企业办公与复杂知识工作场景。相比此前版本,GPT-5.4的最大变化在于强化了AI智能体的能力。在API和Codex中,GPT-5.4首次实现了原生级“电脑操作”功能,支持智能体跨软件执行复杂工作流。
GPT-5.4不仅能生成文本或代码,还首次将原生电脑操控能力引入通用模型,能直接操作电脑软件、浏览网页、控制鼠标和键盘完成任务,并可与电子表格、金融分析工具等企业应用深度整合,深度嵌入微软Excel和谷歌表格。在ChatGPT中,GPT-5.4支持“提前展示思维过程”,允许用户在模型响应过程中调整任务方向,并提升了深度网页搜索与长逻辑语境下的上下文保持能力。
业内认为,GPT-5.4的一系列升级标志着AI模型正从“对话工具”走向自动化执行任务的数字代理系统,进一步渗透企业生产力软件与专业知识工作。OpenAI本周四同时推出两个版本,包括更擅长复杂推理的GPT-5.4 Thinking以及高性能的GPT-5.4 Pro,分别面向付费用户和高端企业用户。
在计算机操控基准测试OSWorld-Verified中,GPT-5.4以75.0%的成功率超越人类平均水平72.4%,较前代GPT-5.2的47.3%大幅跃升。同期发布的财务服务套件显示,GPT-5.4在OpenAI内部投行基准测试中的得分从GPT-5的43.7%跃升至88.0%。早期测试机构给出积极反馈。投资公司Walleye Capital的AI解决方案主管Daniel Swiecki表示,GPT-5.4在内部财务和Excel评估中准确率提升了30个百分点。AI人才平台Mercor的CEO Brendan Foody称其为该公司“迄今尝试过的最佳模型”,并表示GPT-5.4已在Mercor面向专业服务工作的APEX-Agents基准测试中排名第一。OpenAI发布最强专业模型GPT-5.4 原生电脑操控功能突破边界