你的“龙虾”真记得你吗 AI记忆能力测试结果不佳

3小时前热点话题1

　　你的“龙虾”真记得你吗 AI记忆能力测试结果不佳。ATM-Bench 将“个人AI助手是否真的记得你”这一问题转化为一个研究测试基准。结果显示，专用记忆智能体系统的准确率普遍低于20%，而通用智能体如OpenClaw、Codex和Claude Code的最高准确率也不到40%。

　　设想一个场景：妈妈问：“你上次去日本旅行帮我买的相机还在保修期内吗？”对人类来说，这并不难，可以通过查看收据、照片或邮件来回忆。但对当前的AI来说，这类问题却相当复杂。

　　剑桥大学的研究团队开源了面向AI个人助理的长期记忆基准测试ATM-Bench。该测试评估AI在面对一个人多年真实生活数据时能否记住相关信息。实验结果不理想，在ATM-Bench-Hard基准上，热门开源智能体OpenClaw仅达到25.4%的准确率；编程智能体标杆Claude Code也只有33.8%。多数开源专用记忆系统准确率甚至低于20%。

　　过去已有不少工作评估AI的记忆能力，例如LoCoMo热点话题、LongMemEval等，但这些大多聚焦于对话历史。而真实世界中的个人记忆分散在照片、视频和邮件中，时间跨度可能长达数年且互相之间并不一致。为此，ATM-Bench提出了首个面向长期、多模态、多来源、个性化指代记忆问答的基准。其关键特征包括时间跨度约4年，覆盖图像、视频、邮件三类模态，超过一万条记忆数据，且这些数据来自真实个人生活而非合成对话。图像和视频数据包含地点、时间等元数据，地点遍布四大洲。此外，还包括1000多条完全人工标注的问题、答案与证据。你的“龙虾”真记得你吗 AI记忆能力测试结果不佳

热点资讯

你的“龙虾”真记得你吗 AI记忆能力测试结果不佳

“你的“龙虾”真记得你吗 AI记忆能力测试结果不佳” 的相关文章

中金：看涨铝价和吨铝利润扩张电解铝板块重估机遇

今年首场寒潮的三大特点体感巨变降雪强冻雨广

吴易昺晋级澳网次轮再创佳绩

黄子韬被刚起床的刘耀文帅到了雪场互动引热议

河南网友排队给气象台“道歉” 雪确实说准了

南京一医院接诊20余名雪天摔伤病人上下班受伤引工伤疑虑

Powered By Z-BlogPHP. Theme by TOYEAN.

热点资讯

你的“龙虾”真记得你吗 AI记忆能力测试结果不佳

“你的“龙虾”真记得你吗 AI记忆能力测试结果不佳” 的相关文章

中金：看涨铝价和吨铝利润扩张 电解铝板块重估机遇

今年首场寒潮的三大特点 体感巨变降雪强冻雨广

吴易昺晋级澳网次轮 再创佳绩

黄子韬被刚起床的刘耀文帅到了 雪场互动引热议

河南网友排队给气象台“道歉” 雪确实说准了

南京一医院接诊20余名雪天摔伤病人 上下班受伤引工伤疑虑

var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?94814b4c7734876c41315dcad7d55ce9"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })();

Powered By Z-BlogPHP. Theme by TOYEAN.

中金：看涨铝价和吨铝利润扩张电解铝板块重估机遇

今年首场寒潮的三大特点体感巨变降雪强冻雨广

吴易昺晋级澳网次轮再创佳绩

黄子韬被刚起床的刘耀文帅到了雪场互动引热议

南京一医院接诊20余名雪天摔伤病人上下班受伤引工伤疑虑