实习项目

记忆系统测试与数据异常分析

社交产品实习生·2025.11 — 2026.05·趣丸科技

Benchmark 评测记忆系统数据异常分析角色一致性质量保障

项目背景

在趣丸科技实习期间，Agent 产品的记忆系统需要系统化的评测与异常分析。需要有人深入参与测试集的全量测试，定位记忆召回、信息整合、角色一致性等方面的问题来源。

Agent 记忆系统在实际使用中存在召回不准、信息整合失败、角色一致性漂移等问题，但缺乏系统化的异常样本分析和问题归因，难以指导优化方向。

深度参与 KnowMe-Bench、CloneMem 等测试集的全量测试，完成测试调用、记忆检索、召回检查、回答评分与错题分析。整理低质量回答和异常样本，分析记忆召回、信息整合、角色一致性和回答生成中的问题来源。输出问题样本与分析结论，为记忆模块和产品体验优化提供依据。

建立“测试调用 → 回答评分 → 错题分析 → 问题归因 → 优化建议”的闭环流程。对异常样本按问题来源分类（记忆召回 / 信息整合 / 角色一致性 / 回答生成），每类标注具体表现和可能的根因。

KnowMe-Bench + CloneMem 测试集 + 人工评分 + 异常样本分析。

完成测试集全量测试，产出系统化的异常样本分析报告。问题分类覆盖记忆召回、信息整合、角色一致性和回答生成四个维度。分析结论为记忆模块和产品体验优化提供了直接依据。

<待补充>