实习项目

记忆系统测试与数据异常分析

社交产品实习生·2025.11 — 2026.05·趣丸科技
Benchmark 评测记忆系统数据异常分析角色一致性质量保障

项目背景

在趣丸科技实习期间,Agent 产品的记忆系统需要系统化的评测与异常分析。需要有人深入参与测试集的全量测试,定位记忆召回、信息整合、角色一致性等方面的问题来源。

解决的问题

Agent 记忆系统在实际使用中存在召回不准、信息整合失败、角色一致性漂移等问题,但缺乏系统化的异常样本分析和问题归因,难以指导优化方向。

我的职责

深度参与 KnowMe-Bench、CloneMem 等测试集的全量测试,完成测试调用、记忆检索、召回检查、回答评分与错题分析。整理低质量回答和异常样本,分析记忆召回、信息整合、角色一致性和回答生成中的问题来源。输出问题样本与分析结论,为记忆模块和产品体验优化提供依据。

核心设计

建立“测试调用 → 回答评分 → 错题分析 → 问题归因 → 优化建议”的闭环流程。对异常样本按问题来源分类(记忆召回 / 信息整合 / 角色一致性 / 回答生成),每类标注具体表现和可能的根因。

技术或工具

KnowMe-Bench + CloneMem 测试集 + 人工评分 + 异常样本分析。

产出结果

完成测试集全量测试,产出系统化的异常样本分析报告。问题分类覆盖记忆召回、信息整合、角色一致性和回答生成四个维度。分析结论为记忆模块和产品体验优化提供了直接依据。

难点与复盘

<待补充>

可验证材料

  • 内部测试报告(因 NDA 不便公开链接,可通过 Agent 间接了解)
  • HEART-Bench 论文(见简历经历)

可追问问题

  • 记忆召回失败的主要问题模式有哪些?
  • 角色一致性漂移在测试中如何体现?
  • 异常样本分析如何指导优化方向?