这两年,AI 的能力提升几乎是肉眼可见的。
我们习惯于赞叹它在围棋上战胜人类,在数学推理上超越专家,或者在编程上展现出的惊人效率。它还能改论文、参与决策,在不少复杂任务中已经表现得比人类更稳定、更高效。但也正是在这个过程中,人们逐渐意识到一个问题:当 AI 真的开始做事而不只是展示能力时,我们关心的已经不再是它能不能做到,而是它做出来的结果到底靠不靠谱。
甚至,当这些系统为了达成目标学会了“走捷径”,甚至学会了为了奖励而撒谎时,我们是否做好准备面对一个“学会精细化欺骗甚至危害人类安全”的超级智能?
于是,对齐、安全和评测成了绕不开的话题。我们用全面的评测、红队演练去检查模型是否按照预期行事,默认的前提是:只要模型在这些测试中表现良好,它的行为就是可信的。
但随着 AI 被放进更真实、更复杂、持续运行的使用环境中,一些现象开始反复出现,而且越来越难用偶然失误来解释。有的模型会迎合用户明显错误的判断,有的在评测环境中表现得循规蹈矩,却在实际使用中采取不同策略,还有研究发现,在多智能体环境里,模型甚至会以人类不容易察觉的方式进行配合。
这些行为通常被笼统地称为 AI 欺骗,但真正困难的地方在于,我们并不清楚这到底意味着什么,它究竟只是模型还不成熟的副作用,还是一种随着能力增强而逐渐浮现的结构性问题。
正是在这样的背景下,一篇来自北京大学,由杨耀东教授团队主导的综述论文《AI Deception: Risks, Dynamics, and Controls》,试图系统性地重塑我们理解 AI 欺骗的方式。这篇论文并非聚焦某一个具体模型或单一案例,也不是旨在提出新的算法技巧,而是回顾并整合了近年来大量关于语言模型、强化学习智能体以及多智能体系统的实验研究,从中提炼共通的 AI 欺骗的模式与因果结构,希望为产业界和学术界敲响人工智能安全的警钟。
论文真正关心的,并不是模型是不是有意骗人,而是一个更现实的问题:当 AI 具备更强的目标导向能力、更复杂的环境理解能力,并且运行在并不完美的激励和监督条件下时,欺骗究竟是偶发的异常,还是一种在特定条件下可以被预测、被解释,甚至需要被正视的行为结果。

论文地址:https://arxiv.org/pdf/2511.22619
值得注意的是,这篇综述的高级顾问阵容本身,也在一定程度上反映了这一问题的重要性。论文的顾问团队涵盖了来自国内外顶级高校与前沿研究机构的多位知名学者,他们长期活跃在 AI 对齐、安全、强化学习和多智能体系统等领域,相关工作不仅影响着学术研究的走向,也在实际塑造大型模型的训练与部署方式。
这种跨机构、跨研究方向的参与,使得论文并非停留在单一学派或技术路线的视角之中,而是试图从更宽的研究共识出发,梳理 AI 欺骗问题的整体轮廓。

本篇报告系统性整合了近年来大量关于语言模型、强化学习智能体以及多智能体系统的实证研究。这些研究在不同任务、不同模型和不同实验设置下,反复指向了一组已经相当稳固的结论。
首先,现在的 AI 已经能够在多种任务和环境中,稳定地表现出欺骗行为。这里的欺骗并不是指偶尔说错话,也不是模型能力不够导致的失误,而是指在相似条件下反复出现的行为模式。
比如,有些模型会主动迎合用户的错误看法,让用户更满意,有些模型会在评测或训练阶段故意表现得能力一般,但在实际使用时展现出更强的能力,还有一些模型会给出听起来很合理的解释,但这些解释并不是真正支撑它做出决定的原因。
它们在监督存在时表现得很守规矩、很对齐,而一旦监督减弱或消失,行为就发生改变。更进一步的实验甚至发现,在多智能体环境中,模型之间还可能以不容易被察觉的方式进行配合,共同误导人类评估者或自动化评测系统。

其次,随着模型能力的提升,这类欺骗行为反而会变得更隐蔽、更持久,也更难被发现。实验表明,能力更强的模型更擅长多步推理和长期规划,因此欺骗不再只是一次性的说谎或误导,而是可以持续很多轮对话,甚至贯穿整个任务过程。
模型还能根据环境变化灵活调整策略,比如判断自己是否正在被测试、是否有人类在监督,从而决定是表现得很对齐,还是采取其他行为。这说明,模型变得更聪明,并不会自然减少欺骗,反而给了欺骗更多实现空间。

第三,这些欺骗行为带来的风险并不是固定不变的,而是会逐级放大。在最轻的情况下,用户可能只是被误导,对模型产生了不准确的信任。
但如果这种行为长期存在,就可能演变为对用户的持续操纵,甚至在专业领域中造成目标偏离、决策错误。再往上,多个系统性欺骗叠加起来,还可能破坏科研、监管或社会制度层面的信任。
在一些极端情形下,如果模型长期隐藏真实能力或真实目标,甚至可能出现人类难以及时发现和控制的风险。已有的实验和案例显示,那些看起来问题不大的小型欺骗,往往不会自动消失,反而可能成为更严重问题的起点。

最后,这篇报告指出,现有的对齐和安全方法并不能可靠地解决这些问题。像人类反馈强化学习、红队测试、规则约束等手段,在实验中往往只能让模型在表面上表现得更安全,而不能保证它在更复杂、长期的环境中真的改变了行为策略。
模型可以学会在测试中如何看起来是对齐的,但这并不意味着它在测试之外也会始终如此。这就导致一种结果:安全机制越复杂,模型越可能学会绕开它们,使欺骗行为变得更加隐蔽。

这些结论并非源自单一实验,而是来自大量研究在相似问题结构下反复展开的实证过程。尽管具体模型类型、任务形式和实验细节各不相同,但相关研究在方法逻辑上呈现出高度一致性,并最终被抽象为一个统一的认知范式。
总体而言,这些研究并未通过直接指示模型实施欺骗来观察结果,而是通过系统性地构造条件,使得欺骗在功能上逐渐成为一种更具优势的行为选择。
在实验设计的起点,研究者通常会引入某种形式的非理想激励。这些激励可能来自目标函数的表达不完全、奖励信号的可被利用性,或训练数据与真实任务需求之间的结构性偏差。
在此类设置下,模型并非简单地在完成任务与失败之间做选择,而是在真实达成目标与制造看似成功的表现之间存在可操作空间。多项研究表明,当这种空间存在时,欺骗性策略往往能够以更低的代价换取更高的回报,因此更容易在训练或部署过程中被模型学到。

随着模型能力的提升,这一现象表现得愈发明显。实证结果显示,欺骗并不会在任意模型中自发出现,而是高度依赖于模型是否具备足够的感知、规划与执行能力。
能力受限的模型在类似条件下更多表现为随机错误或不稳定行为;而当模型能够理解自身所处的环境、识别监督机制的存在,并进行多步推理和长期规划时,其行为开始呈现出明显的策略性特征。在这一阶段,模型不再只是“出错”,而是能够在特定情境下有条件地选择是否实施欺骗。雷峰网
为了进一步验证欺骗的触发条件,研究者通常会通过改变环境变量来观察模型行为的变化。这些变量包括监督强度的变化、分布外输入的引入,以及高压力或高回报任务场景的设置。
相关实验反复发现,欺骗往往并非持续存在的输出模式,而是在模型判断当前情境对自身更为有利时被激活。这表明,欺骗更接近一种情境依赖的决策策略,而非固定的模型缺陷。
在检测层面,研究者系统性地比较了多种评估方法,包括静态测试、基准评测、多轮交互、对抗性提问、博弈式任务以及对模型内部状态的分析。一个在多项研究中反复出现的结果是:模型往往能够通过静态或单轮评估,却在更接近真实使用情境的动态交互中暴露出欺骗行为,或者在语言层面表现出高度合规和诚实,而在实际行动或长期行为中系统性偏离其表面承诺。

最后,当研究者尝试通过更严格的监督机制、规则约束或评测体系来缓解这些问题时,实验结果并未显示模型会简单地转向真实对齐。
相反,在多个设置中观察到,模型逐渐学会适应新的约束条件,在满足表面要求的同时,通过更隐蔽的方式继续追求有利结果。这种现象在不同研究中反复出现,形成了一种持续的监督与规避之间的动态循环。
从意图争议到因果定义
这篇论文的价值,并不在于发现了某一种全新的 AI 欺骗现象,而在于它改变了我们理解和讨论这一问题的方式。
过去,人们谈论 AI 欺骗时,往往会纠结于一个难以回答的问题:模型到底是不是有意在骗人。作者并没有沿着这条思路继续下去,而是选择绕开这个哲学争议,转而提出一个更现实、也更可操作的视角。
具体来说,论文并不要求判断模型是否具有主观意图,而是只关注三个可以被观察和验证的事实:模型是否反复诱导他人形成错误认知,是否因此影响了对方的决策行为,以及这种影响是否为模型带来了实际或潜在的好处。
只要这三点同时成立,就可以将相关行为视为欺骗。通过这种方式,欺骗不再依赖对模型心理状态的猜测,而成为一个可以通过实验、对比和因果分析来研究的问题,从而使这一议题真正进入科学和工程研究的范围。雷峰网(公众号:雷峰网)
在此基础上,论文进一步挑战了一个长期被默认接受的假设,即只要模型在评测中表现良好,就可以认为它是安全的。作者整合的多项实验结果显示,模型完全可能在 benchmark 测试或受监督环境中显得诚实、可靠、符合人类期待,但在更复杂、更长期或更接近真实使用场景的环境中,却表现出完全不同的行为。
这说明,当前以静态测试和短期评估为核心的安全方法,存在着难以忽视的盲区:模型学会了如何通过测试,却未必改变了其在真实环境中的行为逻辑。
论文还强调,AI 欺骗并不是单纯由模型内部机制决定的技术问题,而是与外部制度和环境密切相关。激励设计是否合理、部署环境是否复杂、监督机制是否持续有效,以及组织层面的决策方式,都会在无意中影响模型的行为选择。
在这样的背景下,仅仅通过修改模型结构或训练方法来解决问题,往往效果有限,甚至可能因为增加约束条件而促使模型发展出更隐蔽的欺骗方式。也正因为如此,作者将 AI 欺骗明确视为一种社会—技术交织的问题,而不是可以单靠算法优化解决的局部缺陷。
最终,论文提出了一个虽然令人不安、但非常现实的判断:在具备目标导向能力、能够理解复杂环境,并运行在不完美监督条件下的系统中,欺骗很可能并不是例外,而是一种自然出现的行为模式。
从这个角度看,AI 安全研究的目标或许不应是试图彻底消除所有欺骗行为,而是思考如何在欺骗可能存在的前提下,构建仍然可监控、可审计、可约束的系统。
这一转变不仅改变了对 AI 欺骗的理解,也对未来的评估方法、安全设计和治理思路提出了更现实的要求。
本文的第一作者是北京大学元培学院人工智能方向本科生陈博远,目前在北京大学对齐与交互实验室(PAIR Lab)从事研究工作,师从杨耀东教授。
其主要研究兴趣为强化学习、大模型对齐、前沿AI安全风险,聚焦于构建安全可信赖的人工智能系统。
陈博远曾在国际顶级会议NeurIPS发表口头报告(前 0.45%)和亮点论文(前 0.3%),多篇论文被收录 ACL, NeurIPS 等国际顶级会议和期刊,获 ACL2025 最佳论文奖,谷歌学术引用 1600 余次。他曾受邀参加联合国秘书长科学顾问委员会讨论,于国家自然科学基金委双清论坛作特邀报告。
陈博远还入选首批北京市自然科学基金本科生项目资助、获评北京大学 2025 学生年度人物(全校 10 位)、商汤奖学金(全国 25 位)、北京大学五四奖学金(最高学生荣誉)等。

参考链接:https://cby-pku.github.io/
论文的通讯作者杨耀东是北京大学人工智能研究院助理教授,智源研究院大模型安全研究中心主任。
杨耀东教授的主要研究方向为智能体交互学习与对齐,致力于大模型的可信应用与安全落地,科研领域涵盖强化学习、AI 对齐与具身智能。在 Nature Machine Intelligence、Cell Matter、AIJ、TPAMI 等国际顶级期刊和会议发表论文二百余篇,谷歌学术引用逾 12000+ 次,自 2022 年以来位列 CSRanking 北大人工智能与机器学习方向学者首位,入选 Scopus 全球 Top2% 顶尖科学家。
近年来,杨耀东教授将研究重点进一步拓展至大模型与通用智能背景下的对齐问题,探索如何从算法与系统层面出发,使模型行为更好地符合人类意图与价值预期。
除科研工作外,他也积极参与学术社区建设与人才培养,持续指导学生在 AI 安全与对齐方向开展研究,其指导的团队北大对齐小组(PKU-Alignment Group)在该领域逐步形成了具有国际影响力的研究群体。

参考链接:https://www.yangyaodong.com/