你的“龙虾”真记得你吗 AI记忆能力测试结果不佳
你的“龙虾”真记得你吗 AI记忆能力测试结果不佳。ATM-Bench 将“个人AI助手是否真的记得你”这一问题转化为一个研究测试基准。结果显示,专用记忆智能体系统的准确率普遍低于20%,而通用智能体如OpenClaw、Codex和Claude Code的最高准确率也不到40%。
设想一个场景:妈妈问:“你上次去日本旅行帮我买的相机还在保修期内吗?”对人类来说,这并不难,可以通过查看收据、照片或邮件来回忆。但对当前的AI来说,这类问题却相当复杂。
剑桥大学的研究团队开源了面向AI个人助理的长期记忆基准测试ATM-Bench。该测试评估AI在面对一个人多年真实生活数据时能否记住相关信息。实验结果不理想,在ATM-Bench-Hard基准上,热门开源智能体OpenClaw仅达到25.4%的准确率;编程智能体标杆Claude Code也只有33.8%。多数开源专用记忆系统准确率甚至低于20%。
过去已有不少工作评估AI的记忆能力,例如LoCoMo热点话题、LongMemEval等,但这些大多聚焦于对话历史。而真实世界中的个人记忆分散在照片、视频和邮件中,时间跨度可能长达数年且互相之间并不一致。为此,ATM-Bench提出了首个面向长期、多模态、多来源、个性化指代记忆问答的基准。其关键特征包括时间跨度约4年,覆盖图像、视频、邮件三类模态,超过一万条记忆数据,且这些数据来自真实个人生活而非合成对话。图像和视频数据包含地点、时间等元数据,地点遍布四大洲。此外,还包括1000多条完全人工标注的问题、答案与证据。你的“龙虾”真记得你吗 AI记忆能力测试结果不佳