你的“龙虾”真记得你吗 AI记忆能力测试结果不佳

3小时前热点话题1

  你的“龙虾”真记得你吗 AI记忆能力测试结果不佳。ATM-Bench 将“个人AI助手是否真的记得你”这一问题转化为一个研究测试基准。结果显示,专用记忆智能体系统的准确率普遍低于20%,而通用智能体如OpenClaw、Codex和Claude Code的最高准确率也不到40%。

  

  设想一个场景:妈妈问:“你上次去日本旅行帮我买的相机还在保修期内吗?”对人类来说,这并不难,可以通过查看收据、照片或邮件来回忆。但对当前的AI来说,这类问题却相当复杂。

  

  剑桥大学的研究团队开源了面向AI个人助理的长期记忆基准测试ATM-Bench。该测试评估AI在面对一个人多年真实生活数据时能否记住相关信息。实验结果不理想,在ATM-Bench-Hard基准上,热门开源智能体OpenClaw仅达到25.4%的准确率;编程智能体标杆Claude Code也只有33.8%。多数开源专用记忆系统准确率甚至低于20%。

  

  过去已有不少工作评估AI的记忆能力,例如LoCoMo热点话题、LongMemEval等,但这些大多聚焦于对话历史。而真实世界中的个人记忆分散在照片、视频和邮件中,时间跨度可能长达数年且互相之间并不一致。为此,ATM-Bench提出了首个面向长期、多模态、多来源、个性化指代记忆问答的基准。其关键特征包括时间跨度约4年,覆盖图像、视频、邮件三类模态,超过一万条记忆数据,且这些数据来自真实个人生活而非合成对话。图像和视频数据包含地点、时间等元数据,地点遍布四大洲。此外,还包括1000多条完全人工标注的问题、答案与证据。你的“龙虾”真记得你吗 AI记忆能力测试结果不佳

“你的“龙虾”真记得你吗 AI记忆能力测试结果不佳” 的相关文章

中金:看涨铝价和吨铝利润扩张 电解铝板块重估机遇

  中金公司发布研报称,预计铝价和吨铝利润将上涨,看好电解铝板块的重估机遇。报告指出,由于电解铝供需缺口持续扩大,加上全球积极的财政和货币政策共振,铝价有望继续创出新高。考虑到成本侧可能维...

今年首场寒潮的三大特点 体感巨变降雪强冻雨广

  今年首场寒潮的三大特点 体感巨变降雪强冻雨广!昨天是“四九”的第一天,今年以来最强的一轮寒潮天气过程已经启动。这轮寒潮具有明显的体感变化、强降雪和广泛的冻雨特点。  ...

吴易昺晋级澳网次轮 再创佳绩

  今天是2026年澳大利亚网球公开赛的第三个比赛日,中国选手吴易昺以7-5、4-6、6-4、6-2战胜纳尔迪,成功晋级次轮热点话题。此前他在资格赛中已经取得了三连胜,如今又迎来了澳网四连...

黄子韬被刚起床的刘耀文帅到了 雪场互动引热议

  长白山雪场上一组两人滑雪的路透图在网上引起热议。刚结束综艺节目《宇宙闪烁请注意》录制的“爆闪兄弟”黄子韬和刘耀文再次同框,滑雪场上的互动让网友直呼这对跨代组合太好嗑。...

河南网友排队给气象台“道歉” 雪确实说准了

  1月20日清晨,河南多地被厚厚的积雪覆盖,不少网友在社交平台上向当地气象台道歉。此前热点话题,对于1月19日至20日河南多地“大到暴雪”的预报,部分地区因雪势起步较缓,一度引发了网友的...

南京一医院接诊20余名雪天摔伤病人 上下班受伤引工伤疑虑

  南京一医院接诊20余名雪天摔伤病人 上下班受伤引工伤疑虑!1月20日上午,南京城银装素裹,雪后道路异常滑。明基医院一上午接诊了数十起因摔倒或撞伤的患者。江苏省第二中医院也表示,摔伤导致...