对话南洋理工大学安波教授：如何让大语言模型适应动态环境？丨IJAIRR

Twosome 大模型强化学习

2024/07/18 10:09

对话南洋理工大学安波教授：如何让大语言模型适应动态环境？丨IJAIRR

对人类越是简单的问题，大语言模型反而越难以做好？

尽管现在的大模型已经有能力冲击数学竞赛级别的题目，但在像“9.11和9.9谁大”这样的简单问题上仍然会翻船。而从推特上网友对问题的讨论中猜测，出现这种错误的原因可能是由于大模型以token的方式来理解文字，当9.11被拆成“9”、“.”和“11”三部分时，11确实比9大。

对话南洋理工大学安波教授：如何让大语言模型适应动态环境？丨IJAIRR

大语言模型（LLMs）在处理复杂问题时表现出色，但在一些看似简单的问题上却可能遇到困难——这种现象并不是因为模型本身的复杂性，而是由于模型与特定环境或任务之间的知识不对齐。此外，LLMs在生成文本时依赖于预测下一个单词的概率，这种机制可能导致它们生成与人类常识不符的结果。这是因为现有的模型通常侧重于语言的统计特性，而不是深入理解人类的价值观和偏好。

随着大语言模型的能力不断增强，人们对其可能带来的伦理风险和对人类的潜在威胁的担忧也在增加。LLMs可能会传播其训练数据中的有害信息，如偏见、歧视和有害内容。它们还可能泄露训练数据中的私密和敏感信息，或生成误导性或虚假信息。随着这些Agent越来越多地融入我们的日常生活，任何未对齐的行为都可能导致不可预见的后果。

因此，推动大语言模型对齐技术的研究和突破变得尤为重要。这包括开发新的算法和技术，例如通过将强化学习（RL）与大型语言模型（LLMs）结合，这也是当前AI研究的热门方向之一，这种方法的核心在于通过与环境的交互来不断学习和调整模型的行为，使其更好地适应人类的直觉和逻辑。

近日，相关论文之一《TWOSOME: An Efficient Online Framework to Align LLMs with Embodied Environments via Reinforcement Learning》，上线期刊《International Journal of Artificial Intelligence and Robotics Research》（IJAIRR）。该论文提出了一个名为TWOSOME的框架，旨在通过强化学习（RL）将大型语言模型（LLMs）与具身环境（embodied environments）对齐，以解决决策任务。

与OpenAI等公司使用的基于人类反馈的强化学习（RLHF）技术不同，本论文提出了一个新颖的在线框架TWOSOME，使用RL让LLMs作为决策代理与环境进行有效交互和对齐，无需预先准备的数据集或对环境的先验知识。

从实验结果看，TWOSOME在样本效率和性能方面显著优于传统RL方法PPO和提示调整方法SayCan，这一结果在Overcooked和VirtualHome环境中得到了验证。此外，TWOSOME还在八个新的未见任务中测试了其泛化能力，发现其能够成功地将学到的技能转移到不同的任务中。

“要想实现通用人工智能，就不能仅仅依赖人类标注数据，而是需要智能体自发地和环境进行交互。”在谈及强化学习与大语言模型结合研究的意义时，安波教授如是说。

借对该论文的讨论，安波教授向雷峰网-AI科技评论分享了对大语言模型部署在动态环境中进行交互的思考，以及该论文的研究过程。

对话南洋理工大学安波教授：如何让大语言模型适应动态环境？丨IJAIRR

论文链接：https://gairdao.com/doi/10.1142/S2972335324500042

论文引用链接：https://www.worldscientific.com/action/showCitFormats?doi=10.1142%2FS2972335324500042&area=0000000000000001

“合法才合理”

雷峰网(公众号：雷峰网)-AI科技评论：强化学习与大语言模型融合是近一年来的热门研究领域，您能介绍下这一领域的主要研究方向和进展吗？

安波：强化学习与大语言模型的结合主要有两个方向：基于人类反馈的强化学习（RLHF）和传统强化学习。RLHF通过学习人类偏好来对齐价值观，已经成为大型语言模型训练流程中不可或缺的一部分，是目前强化学习与大语言模型结合的最热门的方向。

传统强化学习则依赖环境奖励，让智能体能够自发地在和各种环境不断交互中自主学习策略。目前受限于模型能力和环境的适配性，直接将大语言模型部署在动态环境中进行交互和策略提升的研究较少。TWOSOME框架就是为了试图填补大语言模型与动态环境直接交互的空白的一次探索。

AI科技评论：您能否介绍TWOSOME框架的设计思想灵感来源？

安波：我们注意到，尽管现在的大语言模型在常规问答中表现出色，但决策任务上却常常表现不佳。这主要是因为这些模型缺乏与环境的对齐——它们不熟悉环境中的可执行动作，也不了解环境的动态变化，导致其经常给出一些看似合理其实离题甚远的回答。

与此同时，强化学习因为学习的是环境中的奖励信号，能够和环境始终保持对齐，但其挑战在于如何有效引入先验知识以辅助探索。因此，我们设计了TWOSOME框架，旨在将强化学习与大型语言模型相结合，利用强化学习帮助模型与环境对齐，同时利用模型的先验知识提高探索效率。

此外，虽然利用强化学习训练语言模型以学习人类偏好已经是一个成熟且热门的研究方向，但让语言模型直接与环境交互以学习的研究还相对缺乏。本质上人类的偏好和环境的反馈都是一种奖励信息，用来指引模型更新的方向，所以理论上我们应该能够对RLHF框架进行修改将大语言模型直接部署到动态环境中，通过在线交互的方式不断提升大语言模型自身的策略和能力。

AI科技评论：在现有的技术背景下，这项研究解决了哪些关键问题？

安波：这项研究主要是解决了如何用强化学习让大语言模型通过与动态环境交互的方式提升自己能力的问题。这其中又具体细分为：

1）如何让能力较弱的大语言模型能够稳定输出环境中可执行的合法动作；

2）如何利用大语言模型学习到的海量知识指引智能体在环境中高效探索；

3）如何设计一套高效的pipeline让模型根据环境中的奖励信号进行参数更新最后找到最优策略。

AI科技评论：OpenAI的InstructGPT同样也利用了强化学习框架来优化策略，提高语言模型与人类意图的对齐度问题，TWOSOME在方法论上有何不同？

安波：InstructGPT采用的是RLHF技术，它首先先通过学习人类标注的方式获取一个奖励模型（reward model），然后再利用这个模型的奖励信息去更新语言模型。这个过程通常需要多次迭代，先训练reward model再更新模型参数。相比之下，TWOSOME更注重让大模型直接和环境去交互，利用环境中已有的奖励信号，省去了额外训练奖励模型的步骤，使得TWOSOME能够进行在线训练。

此外，RLHF主要用于生成任务，其生成的答案更多关注好坏而非对错。而TWOSOME则需要在环境中实际执行动作，这就要求我们必须确保智能体的动作是合法的。只有先合法，动作才会合理，因此，TWOSOME不是简单地让大模型通过问答问题的方式去生成动作，而是通过查询大模型中有效动作的生成概率，并以此作为智能体的行为策略，从而确保每次交互都是合法的。这种方法提高了智能体与环境互动的有效性和准确性。

更高效、更稳定

AI科技评论：TWOSOME在训练架构上有哪些创新之处？

安波：传统RLHF需要同时维护4个模型，包括Reward Model， Actor Model（行为模型，即大模型本身），Critic mode和Reference model，对显卡显存要求很高。

TWOMSOME创造性地引入LoRA（低秩适配器）更新冻结的大模型，使其本身来作为行为模型，同时，在大模型的基础上增加全连接层作为评价模型。这种设计使得行为模型和评价模型的更新互不干扰，提高了训练的稳定性。更重要的是，整个训练过程中只需要在显存中维护一个大模型，显著提升了内存使用效率，使得我们所有的实验都可以在一张40GB显存的A100 GPU上顺利完成。

AI科技评论：TWOSOME框架通过直接与环境交互来加速学习和迭代，您能否谈谈这种方法在实际研究中的应用效果？

安波：TWOSOME框架直接与环境交互并从中学习并不是为了减少对大规模预训练数据集的依赖，而是在预训练和指令跟随训练的基础上进一步优化。强化学习往往是在监督学习达到瓶颈之后帮助模型突破上限的方法，很多时候我们并不知道如何完成任务以及如何更加高效地完成任务，这就需要通过强化学习和环境不断交互的方式去探索去学习，这通常需要比监督学习大2个数量级以上的数据。

TWOSOME的创新之处在于，它结合了大模型的先验知识，提高了采样效率，使得模型能够更快地收敛。这种方法不是一种简单的效率提升，而是一种突破现有模型性能上限的策略。与传统的强化学习相比，TWOSOME通过更有效的数据利用，帮助模型在复杂任务中实现更快的学习速度和更好的性能表现。

AI科技评论：TWOSOME框架的效率优势可能对未来AI研究的方法论和工作流程产生哪些影响？

安波：TWOSOME的框架为众多计算资源不充分的小型实验室进行强化学习和大语言模型相结合的研究提供了可能。在此之前，780M的语言模型需要8X A100 80G才能运行试验进行相关研究。

AI科技评论：能否详细说明TWOSOME框架中的动作提示规范化方法，以及它如何提升策略的稳定性和鲁棒性？

安波：在TWOSOME中，我们通过查询大模型来确定环境中有效动作的生成概率，并以此作为智能体的行为策略。然而，我们发现直接将动作中每个token的概率连乘起来作为整个动作的概率，会导致一个明显的问题：动作越长，其联合概率通常越低。这是因为每个token的概率都小于1，一些合理的长动作可能会被不合理地低估，最后的概率不如一些不合理的短动作。

为了解决这个问题，我们引入了动作提示规范化（Action Prompt Normalization）。最初，我们尝试了基于token级别的规范化，即利用动作中每个token概率的几何平均值来计算动作的概率。这种方法虽然缓解了动作长度不一导致的概率失衡问题，但我们发现它可能会过度正则化由多个token组成的单词。

例如“tomato”由“tom”和“ato ”2个token组成，在当前语境下，ato几乎是和tom绑定在一起出现的，tom后面几乎一定是跟着ato，如果将它们视为独立，会导致整个tomato乃至整个动作的被过度正则化，会错误地提高其概率。

对话南洋理工大学安波教授：如何让大语言模型适应动态环境？丨IJAIRR

（Twosome基于单词级别的规范化方法）

因此，我们提出了基于单词级别的规范化方法（Word-level Normalization），这种方法将一个单词中所有的token的概率连乘，计算单词层面的几何平均值，而不是token层面的。这不仅避免了过度正则化的问题，还使得动作提示更加合理。与不进行规范化或仅进行token级别规范化相比，单词级别规范化在提高策略稳定性和加速收敛方面表现更佳。

“要超越人类就要和环境交互”

AI科技评论：您如何看待TWOSOME框架在处理未见过的任务或环境时的泛化表现？这种能力如何影响模型在现实世界应用的潜力？

安波：传统强化学习训练的智能体会过拟合在训练的任务上，很难拥有泛化能力，与大语言模型的结合赋予其较强的泛化能力同样令我们惊讶，我们认为这代表TWOSOME具有较好的可拓展性，能够高效地在各种任务和环境中提升自身的能力。

AI科技评论：考虑到TWOSOME框架的泛化能力，您认为未来可能在哪些新的应用方向或领域得以应用，它如何解决这些领域特有的挑战？

安波：TWOSOME探索了一种如何让大语言模型和环境交互不断提升自身能力的方法，同时也是一种如何为强化学习智能体引入先验信息帮助探索的一种方法。

我们相信要想实现通用人工智能，仅仅依赖人类标注数据是不够的，因为那样最多只能达到与人类相同的水平，要想超过人类水平就需要智能体自发地和环境进行交互，TWOSOME就是在这个方向的一次尝试和探索，它同时能够帮助大模型在机器人或者互联网以及操作系统中和环境交互综合提升自身的能力，也能够帮助以往的强化学习智能体在具身智能、AI4Science等方向上更高效地探索，并且有更好的可解释性。