GPT-5.5赢了Opus 4.7和Mythos吗 智能体式工作模型领先

1小时前热点话题1

  OpenAI 发布了 GPT-5.5,称其为公司迄今最聪明、最直觉化的模型,旨在推动“用 AI 在电脑上完成工作”。相比前代,GPT-5.5 更专注于复杂任务中的规划、工具调用、结果检查和跨工具执行。

  

  GPT-5.5 的提升主要体现在智能体式编码、电脑使用、知识工作和早期科学研究四个方向。这些领域通常需要长上下文推理、持续行动和跨工具执行。OpenAI 表示,GPT-5.5 能更快理解用户意图,并能自行承担更多任务流程,如编写和调试代码、在线研究、数据分析、创建文档和电子表格、操作软件等。

  

  Andon Labs 提前测试了 GPT-5.5,在 Vending-Bench 2 上排名第三,表现优于 GPT-5.4,但不如 Opus 4.7热点话题。不过,它的成绩与 Opus 4.6 基本持平,且没有表现出欺骗或权力寻求行为。在 Vending-Bench Arena 中,GPT-5.5 实际上击败了 Opus 4.7。

  

  Artificial Analysis 认为 GPT-5.5 使 OpenAI 重回 AI 领域的首位。Matthew Berman 测试后表示,GPT-5.5 不仅提升了智能水平,还改进了“活人感”,使其更适合个人代理市场。Berman 还指出,GPT-5.5 的 token 效率更高,尽管比 GPT-5.4 更贵,但整体运行成本更低。GPT-5.5赢了Opus 4.7和Mythos吗 智能体式工作模型领先

“GPT-5.5赢了Opus 4.7和Mythos吗 智能体式工作模型领先” 的相关文章

鸿蒙智行回应重庆一台尊界S800起火 打火机受挤压所致

  当地消防部门认定,事件系掉落在后排座椅下方的打火机受挤压导致,并非车辆原因。1月19日,鸿蒙智能汽车技术生态联盟官方微博“鸿蒙智行发言人”发文称,1月14日,重庆两江新区一辆尊界S80...

多人往滇池抛洒放生矿泉水 奇特行为引热议

  多人往滇池抛洒放生矿泉水 奇特行为引热议!在云南昆明滇池,一名女子游玩时发现岸边有人往水里泼矿泉水。她起初以为这是某种特别的泼水节活动,但走近一看才明白,这些人实际上是在“放生”矿泉水...

23岁新娘喝农药自杀进展 已脱离生命危险

  23岁新娘喝农药自杀进展 已脱离生命危险!近日,湖北仙桃一名23岁女生因被逼婚喝农药进ICU一事引起广泛关注。目前,当事人谢某某已脱离生命危险,善款充足,暂时不接受新的捐款。...

郑州交警曝光终身禁驾名单 加强源头安全管理

  为持续推进交通事故预防工作,有效减少重点车辆交通违法行为,加强源头安全管理,防止重点车辆发生事故,郑州交警曝光了终身禁驾名单热点话题、违法未处理较多的车辆以及隐患突出路段。希望驾驶员引...

长沙两站一场出现不同程度晚点或取消 冰雪天气影响出行

  1月20日,长沙城区开始落下冰粒,给人们的出行带来困扰。受天气影响,长沙黄花国际机场出现航班延误情况,截至当日10时,已取消74个航班。   ...

速览2026春运便民举措 精准扩充运能提升服务

  2026年春运自2月2日开始,至3月13日结束,为期40天。这是“十五五”规划实施后的首个春运,伴随春节假期延长,旅客出行需求进一步释放,跨区域流动与文旅消费持续活跃。据分析,今年春运...