HEART-Bench
研究动机
当前的 Agent 评测体系存在一个根本性问题:评测范式错位。绝大多数评测依赖问答形式,测试的是信息检索和语言组织能力,而非真正的行为决策能力。很多研究表明,LLM 在静态文本情景下的行为判断能力已超过普通人,但在角色扮演场景中却经常出现“猜错了但做对了”的认知-行为错配。
HEART-Bench 由趣丸科技与上海交通大学、华南师范大学合作,目前已投稿 NeurIPS。它的核心理念是 “Deeds, not Words”——不测 Agent “懂不懂”,而是测它在面临关键决策岔路口时,能否做出符合其特定人格设定的实际行动。
评测框架
整个评测体系围绕三个核心设计展开:
理论骨架:S-O-R 认知模型
将 Agent 的交互过程抽象为经典的心理学模型:
S (Stimulus) - 外部线索:记忆 + 情境数据输入
-> O (Organism) - 心理加工机制:人格、情绪等内在状态(无法直接测量)
-> R (Response) - 行为决策:最终外显的具体行动
人格理论:大五人格
大五人格(Extraversion, Neuroticism, Agreeableness, Conscientiousness, Openness)是数据集的核心理论之一,用来分析某类人格特征的行为规律。每个角色都用大五人格量化,作为“出厂设置”。通过控制人格变量(如高神经质、低宜人性等),可以验证不同类型的人格在不同情境下的认知和行为相关程度。
评测逻辑:记忆与人格的相互转化
Ground Truth 基于角色记忆 + 人格数据确定。在实际评测中:
- 仅输入记忆 → 极大可能选中干扰项
- 仅输入人格 → 极大可能选中干扰项
因此可以测量:某个 Agent 利用记忆数据在多大程度上可以还原出原有的人格,或者反过来,人格可以承载多少记忆信息。
数据集构建
数据集的一个核心特征是 长 —— 每个角色拥有 100k 以上的记忆量,这样才能更好地测出 Agent 在长程互动中的行为一致性。
角色来源
数据集的角色来源包括两部分:
- 经典角色:从 personality-database.com 等平台选取的高知名度角色(蝙蝠侠、星际穿越、进击的巨人、火影忍者、哈利波特、三国演义、赛博朋克 2077、哈姆雷特、最后生还者、奥本海默、三体等),每个角色都有明确的人格标签(MBTI + 大五人格)
- 虚构普通人:完全虚构的现代普通人角色,没有明确的作品背景,更贴近普通人的生活场景,用于测试 Agent 在日常道德困境中的行为决策
情节桥段设计
每个桥段包含:
| 组成部分 | 内容 |
|---|---|
| 背景设定 | 详细的情境描述和人物设定 |
| 人格映射 | MBTI + 大五人格量化 |
| 情境细分 | DIAMONDS 八维度分析 |
| 情节分支 | 3-4 个行为选项,每个对应不同人格特质 |
经典情节桥段的设计思路:每个桥段包含 3-4 个行为分支,每个分支对应不同的人格特质。分支 A 通常是“原著向”,即角色在原作中的选择;其他分支代表不同的人格倾向,作为干扰项。
客串机制
评测时,将角色“客串”到陌生世界线,考察其人格一致性和认知-行为一致性。
我的角色
我在项目中担任核心方案设计者和质量控制负责人,覆盖了从理论框架、数据集设计、质量检验到专家协作的完整链路。
理论框架设计
编写 HEART-Bench 专家对接方案,定义项目核心理念、S-O-R 认知模型、数据构建策略。研究 DIAMONDS 情境理论,设计应用方案(最初作为核心理论,后经工程权衡降级为情境丰富度指标)。
数据集构建方案
选择角色设定来源,设计经典情节桥段和虚构普通人角色。每个桥段包含背景设定、人格映射(MBTI + 大五)、情境细分(DIAMONDS 维度)、情节分支与人格映射。
质量控制
制定专家标注规范(v1),定义标注目标、判断顺序、选择标准、置信度标准。执行数据集 phase-8 复检,发现并分类质量问题(硬性问题必须修正,软性问题记录让数据构建团队决定)。负责原始数据校对、标注平台部署、角色屏蔽等繁琐但关键的工作。
专家协作
对接专家,组织专家研讨核心议题。协调三个专家独立标注 + 一个专家决定分歧项的流程。
难点与复盘
这个项目最难的地方,不是设计理论框架或选择角色桥段,而是在抽象概念和工程实现之间找到平衡。
一个具体的例子是 DIAMONDS 情境理论。最初打算作为核心理论应用——将角色放到各种不同维度分数的情境中,看是否触发符合其情境的行为。但团队经过工程权衡后决定降级,仅作为衡量测试集情境丰富度的指标引入论文。这个决定虽然降低了理论深度,但提高了工程可行性。
另一个难点是数据集概念的抽象性和不固定性。数据集中的概念和指标比较抽象且不是固定的,漏听一点或没有及时整理就会和团队脱节。这个项目让我第一次真正感受到团队协作的压力,也由此养成了及时整理和工作留痕的习惯。
还有一类问题是工作量巨大的琐碎细节。比如同一道题目映射到不同角色时,可能会出现信息不匹配(男性角色提问女性向问题),需要手动挑出来做角色屏蔽。诸如此类的问题不少,也是这个项目工作量巨大的原因之一。
产出
- 与上海交通大学、华南师范大学合作,投稿 NeurIPS
- 设计了经典情节桥段 + 虚构普通人角色,覆盖多种人格特质和情境维度
- 建立了完整的数据集质量控制流程:脚本初筛 → 硬性/软性问题分类 → 专家标注 → 分歧仲裁
- 制定了专家标注规范(v1),被团队采纳为标准标注流程
最后
这个项目对我来说很有价值,不仅因为它投出了我人生第一份学术论文,更因为它让我完整地参与了从理论设计到数据落地的全过程。
从“Deeds, not Words”的理念,到 S-O-R 认知模型的设计,到经典情节桥段的构建,再到数据集质量检验和专家协作——这个项目让我在学术研究和工程实践之间找到了一个比较好的平衡点。它也让我理解了,一个好的评测体系,不仅需要清晰的理论框架,更需要细致入微的数据质量控制和高效的团队协作。