agent社会模拟与表征工程

社会学，经济学的AI相关研究不少，不过由于经济学者的能力局限，很多都是提示词工程……如何系统的利用agent进行经济学社会学研究是一个值得研究的内容。

From Individual to Society: A Survey on Social Simulation Driven by Large Language Model-based Agents 是一篇论述如何利用基于LLM的Agents来模拟人类行为和复杂的社会动态的综述。

传统的社会学研究依赖于人类参与（如问卷调查、心理学实验），这不仅成本高昂、难以大规模扩展，还涉及伦理风险。近年来，LLM 展现出了极强的人类级推理、规划和角色扮演能力，使得它们可以替代真人进行模拟。

论文按照规模和复杂度的递进，将社会模拟分为三个层次：

个体模拟：
利用 LLM 智能体来模仿特定的个体或具有特定人口统计学特征的群体（如具有 INTJ 性格的人、医生群体）。这一层没有多智能体交互，是所有社会模拟的基石。一般利用prompting和参数化的模型训练（SFT或者RL）。

场景模拟：将一小群智能体组织在一个集中的场景中，由特定的目标或任务驱动（比如共同开发一个软件、共同诊断一个病例、或者玩一局狼人杀）。有两种应用场景：

对话驱动：社交互动、多智能体辩论（以提高推理准确性）、游戏。
任务驱动：科研辅助、软件开发、以及医疗/法律/金融等其他垂直行业的模拟。

社会模拟：
模拟大规模智能体社会中更加复杂、多样的行为，目的不再是完成某项具体任务，而是探索真实世界中的社会动态、宏观规律或社会科学理论。主要应用于研究一些社会科学内容，比如说经济学或者社会学。

论文还总结了大量的基准测试和数据集。

评估方式随层级不同而改变：

个体层：静态评估（主客观打分，如性格测试题）、交互式评估。
场景层：任务完成度评估（如代码通过率、推理准确率）、子任务执行效率评估。
社会层：更关注微观个体行为是否像人，以及宏观结果是否与真实世界的统计规律一致（如意见分布、传播曲线），此外还会评估系统的大规模计算效率。

论文在最后描绘了这三个维度的演进路线图：个体模拟从最开始只模拟表面特征（如简单的 Prompt 测试人格），到目前更细致地模拟特定角色的认知和经历，未来正在走向面向复杂情境的动态模拟（让个体在动态环境中实时交互反馈）。场景模拟经历了简单场景（单任务）到多阶段场景（任务拆解，流水线作业）到复杂的协同场景（具身环境、多智能体自我组织与动态分配任务）。社会模拟从早期构建基础虚拟环境（如 2023年的斯坦福小镇 Generative Agents），到中期关注在特定场景下对齐人类规律，现在的趋势是扩大规模并走向多模态化（引入视觉等感官，使得虚拟社会更逼真）。

AgentSociety是一个实际的社会模拟体系。它不仅让大模型“扮演”人类，还为它们搭建了一个包含物理空间、社交网络和宏观经济的虚拟社会，并成功支撑了上万智能体的并发运行和百万次交互，最终在这套系统上复现并研究了四个真实的社会科学实验。

系统没有用简单的Prompt让模型“假装”人类，而是基于马斯洛需求层次理论、计划行为理论等构建了极其复杂的认知心智模型，包含情绪、需求和认知，详细的社会行为模拟，智能体的每一步行为都受内心需求驱动，并且行为结果会反过来更新情绪和认知。为了防止大模型“产生幻觉”（比如瞬间移动或者凭空造钱），论文硬编码了一个遵循客观物理与经济规律的外部环境，包括城市空间，社交网络空间和经济空间。并且利用分布式计算框架，解决了上万大模型同时并发卡死的问题。

在实际使用上，团队在系统中生成了 10,000 个智能体，并成功复现了四个宏观社会现象：群体极化现象，煽动性信息的传播，全民基本收入政策，外部灾难冲击。

在 Discussion，作者提出了该平台的终极愿景：未来的政府、社会管理者在发布政策前，可以先进行模拟，提前发现政策漏洞。而且我们很快将进入AI和人类共存的社会。这个平台可以用来预测：如果给AI赋予财产权会怎样？如果AI代替人类工作会导致多大规模的失业？

NTU的Position Paper与前面构建具体系统的论文不同，这篇论文对LLM智能体社会模拟进行了深刻的反思。论文的核心观点直接体现在标题中：AI agent（目前）还不是社会模拟的万灵药。

近年来，用大模型（LLM）驱动多个智能体来模拟人类社会变得非常流行。这类研究通常有一个潜在的假设：只要单个智能体足够像人（人设逼真、对话自然），把它们放进网络中，自然就会涌现出真实的宏观社会动态。但是这是一种过度乐观。目前的智能体流水线主要是为了“文本连贯性”和“角色一致性”而优化的，但这与严谨的社会科学所需的“因果机制保真度”之间存在系统性的错位。角色扮演的逼真度不等于真实的人类模拟。现在的评价标准往往是“这个智能体说话像不像”。不论是通过 Prompt 还是 Fine-tuning ，都在优化语言和叙事的连贯性。说得像人，不代表决策机制像人。真实的社会模拟要求智能体在资源受限、存在激励机制、面临社会压力时，依然能做出符合人类偏好的决策。目前的智能体很容易受到提示词措辞的干扰，或者陷入大模型的刻板印象，导致得出的政策结论极为脆弱。社会模拟也不能被简化为智能体之间的聊天。当前许多模拟器（如基于对话的沙盒）把社会互动等同于“智能体互相发消息”。但是在真实世界中，宏观结果往往是与环境交互的结果。环境不仅仅是物理空间，更包括制度规则、平台算法、信息曝光机制和惩罚机制。如果忽略环境的决定性作用，单纯依靠智能体之间的对话来涌现宏观现象，会导致归因错误。

具体来说作者指出了目前整个 Simulation Pipeline 中的三个具体缺陷：

评估标准：目前的评估太侧重于输出，比如用图灵测试看它像不像人，或者算一下生成的文本和真实文本的重合度。但缺乏对因果机制和稳定性（如果换个随机种子或稍微改改提示词，结论还成立吗？）的客观评估。
交互动态与状态更新：目前的模拟往往是顺序执行的（A说完B说），缺乏真实社会中复杂的异步调度和信息能见度（谁能看到什么）设计。
初始化与信息先验：按真实人口比例分配智能体的年龄、性别是不够的，因为这忽略了属性背后复杂的联合分布和潜变量。受限于算力，模拟通常把千万人缩减为几百或几千个智能体，这会破坏网络拓扑中的非线性效应。把背景信息直接写进 Prompt，相当于强制让所有人都“感知”到了该信息，这违背了真实社会中信息传播的阻力。

实际上Position Paper的后两个缺陷不太站得住脚。经济学对于人口特点分布的研究是相当充分的，对于社会分布的问题我们可以相信经济学家们可以给我们很好的解决方案。对于信息传播，实际上较新的框架都会有比较完善的模拟，异步化也实现得比较彻底，而以环境为主导也差不多成为了共识。可以说这两个方面目前的发展还是相对较好。

真正的问题在于 LLM 从本质上来说仍然是 语言模仿游戏。图灵测试尽管已经不怎么被用来衡量 llm 的智能性，但是现在的各种方法，无论是 prompting , SFT , RL 都是在尝试让 LLM 模仿一个特定文本特征，而非模仿一个真实的人。我们总是假定通过语言模仿可以涌现出智能，然而问题在于没有相关的证据。实际上我很怀疑AgentSociety的结论。它是能模拟人类在面对几种社会新闻的反应，问题在于，现代llm的训练数据应该已经包含了这些信息，我们无法真实确认这是真正的模拟还是对于这些已经发生过的情形的模仿。

图灵测试为当时刚刚萌芽的人工智能提供了一个极其清晰的终极目标。但是图灵已经去世了七十多年，还用“模仿游戏”来评估人工智能未必有些食古不化了一点。我个人认为可以结合一些关于表征工程的研究。

Anthropic在 2025 年 7 月发布了论文Persona Vectors: Monitoring and Controlling Character Traits in Language Models。尽管我不太喜欢Anthropic（尤其是封我号的时候），然而他们的确做了一些很有价值的研究。

Persona Vectors的核心出发点是监控与解决大模型的安全性偏离。因此，他们通过训练一个线性分类器提取llm内的针对违背“有用、无害、诚实”原则的具体特征，例如邪恶、阿谀奉承以及幻觉倾向的方向向量，展示了这些向量如何与模型微调后的行为产生强烈相关，并成功利用线性分类器提取特征，将其用于训练期和部署推理期的监控、防御性引导与数据标记。还证明了干预可以在事后缓解模型微调带来的意外人格变化，或者作为一种预防性引导手段避免这些变化的发生。那么，我们自然也可以通过表征工程，将研究拓展到人类人格特性，研究llm内与人类特性相关的方向向量。并且可以通过对向量的监控/控制，实现对模型行为的监控/控制。近期探讨多智能体合作的论文已经成功提取了心理学中经典的大五人格特征，比如宜人性和尽责性。我们完全可以进一步研究，甚至是提出一个通用的表征工程框架。