人格表征工程的两个方向

看来似乎目前已经有很多现有的针对表征工程的人格研究。这意味着我们的研究必须深入——如果只是做一个框架出来，那么已经有很多现成的了。我们现在有两个方向：一是加强分析，试着在原理上深挖；二是推广应用，将其运用在社会模拟上。也就是从深度和广度两个方向拓展。

主要有这些竞争项目：

1. EasySteer（浙大REAL实验室，arXiv:2509.25175）

项目定位： 基于 vLLM 的通用 LLM steering 工程框架。

核心内容：

支持多种向量提取方法（DiffMean, PCA, LAT, Linear Probe, SAE）和学习型方法（LoReFT, LM-Steer）
覆盖 8 个 steering 领域：Safety, Reasoning, Knowledge, Truthfulness, Language, Sentiment, Personality, Style
提供交互式前端 + OpenAI 兼容 API
性能：10.8–22.3× 推理加速

EasySteer 解决"如何高效 steer"（工程），它的的 personality 只是 8 个领域之一，没有系统性的心理学分析、正交性研究、因果定位或心理量表验证。我们可以试着在深度上钻研，或者将框架的方法移植到社会模拟中。

2. PERSONA（Feng et al., arXiv:2602.15669, ICLR 2026 Poster）

项目定位： Training-free 的组合式人格控制框架。

核心内容：

三阶段：Persona-Base（对比激活提取正交 trait 向量）→ Persona-Algebra（标量乘法/加法/减法）→ Persona-Flow（推理时动态组合）
声称 Big Five 方向"approximately orthogonal"
PersonalityBench 得分 9.60，接近 SFT 上界 9.61
Persona-Evolve benchmark 91% win rate

与我们目前的研究相比，都使用对比激活分析提取 Big Five 向量。但是，PERSONA 声称 universal near-orthogonality，我们发现这是 architecture-dependent（0.05–0.42），并且没有：因果定位、防御机制层级、BFI-44 验证、existence-causation dissociation、跨模型正交性变异分析。如果要进一步探究，我认为实际上完全有可能达到更好的效果，至少可以击败SFT。

3. Frising & Balcells（arXiv:2512.17639, Dec 2025）

项目定位： Big Five 线性 probing 和 steering 的实证研究。

核心内容：

使用 Llama 3.3 70B 生成 406 个虚构角色的 Big Five 分数
用线性回归学习 per-layer 方向
关键发现：线性方向对 probing 有效，但 steering 效果高度依赖上下文——forced-choice 任务有效，open-ended generation 效果有限

他们用连续分数（非二元对比），方法论不同；他们发现 steering 在 open-ended 场景受限，我们的 BFI-44 和 guardrail penetration 结果更强；并且没有正交性分析、因果定位、防御机制、跨模型验证等。这个研究可以看作上一个研究的弱化版。

4. Ong et al.（arXiv:2503.12722, Mar 2025）

项目定位： 用 RepE 人格 steering 研究多智能体合作行为。

核心内容：

用 RepE 提取 Big Five 向量，steering LLM 在 Iterated Prisoner’s Dilemma 中的合作行为
测试 Llama-3.1-8B, Gemma2-9B, Mistral-Nemo
发现高 Agreeableness 和 Conscientiousness 提高合作但增加被利用风险

这是一篇应用论文，用 RepE 作为工具而非分析人格编码。没有正交性、因果定位、防御机制等分析。它验证了 personality steering 在下游任务中的实用性，但是规模很小。这强烈暗示广度拓展的可行性。

5. Ju et al.（arXiv:2504.10227, COLM 2025）

项目定位： Layer-wise probing framework，研究人格在 LLM 中的逐层编码。

核心内容：

11 个开源 LLM 上的 layer-wise probing
发现人格主要编码在中间层和高层
Instruction-tuned 模型 trait 分离更清晰
提出 layer-wise perturbation 方法编辑人格，MMLU 退化极小

他们的 layer-wise probing 与我们的 encoding profile 直接重叠。但他们没有区分 existence vs causation，没有正交性分析、防御机制、BFI-44 验证、guardrail penetration等。

那么我们可以说有两个大的方向了：

其一，我们可以试着从理论研究上下功夫。实际上我们的确有一些别人没有的研究：比如说"为什么某些 trait 泛化更好"分析（Openness 抽象编码 vs Extraversion 上下文依赖），layer-wise orthogonality evolution 分析（entanglement → separation → re-integration 动态过程），对 Qwen2.5 异常高相关性的三因素假说（容量约束、激进指令微调、训练数据组成）， template sensitivity 分析，将 trait 间差异与 OOD 模式关联等。如果对于更多模型进行大规模分析，我们完全可以得出比目前研究更加深刻的结论。虽然最近涌现了如 PERSONA、Ju et al. 等同期工作，但它们普遍存在一些盲区：混淆了特征的“存在（Probing）”与“因果（Steering）”；盲目轻信大五人格的“完美正交性”而忽视了模型架构差异；仅停留在浅层的表象特质（Big Five），未能触及深层认知机制。

因此，我们应该放弃简单的跑分比拼，转向揭示 LLM 内部人格编码的原理。有几个可行的方向：

存在与因果分离
Ju et al. 2025 通过 Layer-wise probing 得出结论“人格主要编码在中间层和高层”。然而实际的steering实验表明：Probing 能探测到的是语义的存在域，但决定模型最终扮演何种人格的因果域（控制枢纽）实际上集中在极早期的 Attention 层。这暗示早期层就就决定了角色语境，中晚期层仅仅是顺着该语境进行语义词汇的扩写。这从根本上解释了为什么早期的微小扰动（Steering）能产生巨大的宏观人格偏移。
人格表征的逐层动态演化
现有的 RepE 研究几乎都把人格向量看作静态的全局方向。我们将首次描绘一个 Trait 在残差流中的逐层演化：早期，各种特质与 prompt 词汇高度混合；在中间层，心理学概念被真正抽象出来，形成（不完美的）正交几何空间；在最后几层，被抽象的人格特征开始与安全护栏（RLHF）及输出分布发生非线性碰撞。这可能解释不同的特征的泛化性为什么不同：Openness 是高度抽象的语义概念，泛化极强；而 Extraversion 更依赖具体的社交上下文，容易在早期受到干扰。
架构与对齐税针对 PERSONA 论文中轻率宣称的“大五人格近似正交”，根据跨模型的实验数据（0.05 - 0.42 的巨大波动），这个结论有待商榷。特别是针对 Qwen2.5 表现出的异常高相关性，我们猜测，由于模型总是会被向着“有用的人工智能助手”方向对齐，高强度对齐的模型（如 Qwen2.5）会把大量“宜人性”和“尽责性”特征高强度压入各种内部参数，导致几何空间变形和可操控性下降。

其二是探究应用的结合。2503.12722证明在小规模上表征工程的可行性。那么，我们既然都知道在大规模社会模拟上个体层面的模拟不够好，那么自然可以想到结合表征工程的方法。问题在于，目前似乎没有评测社会模拟中人格一致性的benchmark。我们可以考虑构造一个benchmark，例如观察不同人格个体的社交倾向性。Ong et al. (2025) 的研究虽然证明了 RepE 在多智能体交互中的可行性，但其仅仅停留在极小规模（双人囚徒困境）和单一任务上。我们既然知道，依靠在 System Prompt 中塞满人设的方法，不仅会在漫长的上下文交互中被逐渐“冲刷”掉，而且由于大模型的 RLHF 对齐，所有 Agent 最终都会趋同于“礼貌且乐于助人（高宜人性、高尽责性）”的同质化状态。如果个体层面的底层因果机制都不保真，宏观社会学模拟得出的结论就毫无科学价值。因此，我们可以考虑将表征工程作为底层插件接入社会模拟，并提出首个专门针对“大模型群体社会互动人格一致性”的Benchmark。

具体而言，我们可以从以下方向构建这个应用与评测框架：

我们将通过实验证明：在经历 50-100 轮的复杂群聊或高压社会事件（如资源分配冲突）后，Prompt 驱动的 Agent 人设会完全崩塌，而 RepE 驱动的 Agent 依然能保持高度的决策一致性。学术界有大量“角色扮演（Role-playing）”和“静态人格问卷（QA）”的评测，但是没有一个公认的、针对多智能体社会模拟中长期人格一致性与宏观行为涌现的 Benchmark。既然目前没有评测社会模拟中人格一致性的 Benchmark，我们可以自己定义标准。我认为可以将不同人格的 Agent 放入沙盒。基于社会学理论，高外向性（Extroversion）的 Agent 应该自然涌现出更多的“弱联系（Weak ties）”和极高的网络中心度（Degree Centrality）；而高神经质/内向的 Agent 应该形成封闭的“强联系”小团体。我们去测量 LLM 生成的社交图谱是否符合人类社会学规律。在无预设角色的协作任务中，观察高尽责性（Conscientiousness）的个体是否会自动承担规划者/领导者角色，高宜人性个体是否会成为冲突调解员。当虚拟社会遭遇危机（如经济崩溃、资源枯竭）时，观察不同群体是否会发生行为畸变（如低阶群体开始“投射”和“否认”，产生群体极化）。