多模态感知能加深代理对工作环境的理解,显著提升了其通用性。
作为 LLMs 最基础的能力,这里不再赘述。
LLMs 本身并不具 备视觉的感知能力,只能理解离散的文本内容。而视觉输入通常包含有关世界的大量信息,包括对象的属性,空间关系,场景布局等等。常见的方法有:
听觉也是人类感知中的重要组成部分。由于 LLMs 有着优秀的工具调用能力,一个直观的想法就是:代理可以将 LLMs 作为控制枢纽,通过级联的方式调用 现有的工具集或者专家模型,感知音频信息。此外,音频也可以通过频谱图(Spectrogram)的方式进行直观表示。频谱图可以作为平面图像来展示 2D 信息,因此,一些视觉的处理方法可以迁移到语音领域。
现实世界中的信息远不 止文本、视觉和听觉。作者们希望在未来,智能代理能配备更丰富的感知模块,例如触觉、嗅觉等器官,用于获取目标物体更加丰富的属性。同时,代理也能对周围环境的温度、湿度 和明暗程度有清楚的感受,采取更 Environment-aware 的行动。
此外,还可以为代理引入对更广阔的整体环境的感知:采用激光雷达、GPS、惯性测量单元等成熟的感知模块。
在大脑做出分析、决策后,代理还需要做出行动以适应或改变环境:
作为 LLMs 最基础的能力,这里不再赘述。
尽管 LLMs 拥有 出色的知识储备和专业能力,但在面对具体问题时,也可能会出现鲁棒性问题、幻觉等一系列挑战。与此同时,工具作为使用者能力的扩展,可以在专业性、事实性、可解释性等方面 提供帮助。例如,可以通过使用计算器来计算数学问题、使用搜索引擎来搜寻实时信息。
另外,工具也可以扩展智能代理的行动空间。例如,通过调用语音生成、图像生成等专家模型,来获得多模态的行动方式。因此,如何让代理 成为优秀的工具使用者,即学会如何有效地利用工具,是非常重要且有前景的方向。
目前,主要的工具学习方法包括从演示中学习和从反馈中学习。此外,也可以通过元学习、课程学习等方式来让代理程序在使用各种工具方面 具备泛化能力。更进一步,智能代理还可以进一步学习如何「自给自足」地制造工具,从而提高其自主性和独立性。
具身(Embodyment)是指代理与环境交互过程中,理解、改造环境并更新自身状态的能力。具身行动(Embodied Action)被视为虚拟智能与物理现实的互通桥梁。
传统的基于强化学习的 Agent 在样本效率、泛化性和复杂问题推理等方面存在局限性,而 LLM-based Agents 通过引入大模型丰富的内在知识,使得 Embodied Agent 能够像人类一样主动感知、影响物理环境。根据代理在任务中的自主程度或者说 Action 的复杂程度,可以有以下的原子 Action:
通过组合这些原子行动,代理可以完成更为复杂的任务。例如「厨房的西瓜比碗大吗?」这类具身的 QA 任务。为了解决这个问题,代理需要导航到厨房,并在观察二者的大小后得出答案。
LLM-based Agent 的三种应用范式:单代理、多代理、人机交互。
可以接受人类自然语言命令,执行日常任务的智能代理目前备受用户青睐,具有 很高的现实使用价值。作者们首先在单智能代理的应用场景中,阐述了其多样化的应用场景与对应能力。
在论文中,单智能代理的应用被划分为如下三个层次:
单代理应用场景的三个层次:任务导向、创新导向、生命周期导向。
多代理应用场景的两种交互形式:合作型互动、对抗型互动。
作为实际应用中部署最为广泛的类型,合作型的代理系统可以有效提高任务效率、共同改进决策。具体来说,根据合作形式的不同,作者们又 将合作型互动细分为无序合作与有序合作。
智能代理以一种针锋相对(tit for tat)的方式进行互动。通过竞 争、谈判、辩论的形式,代理抛弃原先可能错误的信念,对自己的行为或者推理过程进行有意义的反思,最终带来整个系统响应质量的提升。
人机交 互场景的的两种模式:Instructor-Executor 模式 vs. Equal Partnership 模式。
大模型在语言理解、决 策制定以及泛化能力等方面展现出强大的潜力,成为代理构建过程中的关键角色,而代理的进展也为大模型提出了更高的要求。
智能代理能否真正落地,需要经过严谨的安全性评估,避免对真实世界带来危害 。作者总结了更多潜在威胁,例如:非法滥用、失业风险、对人类福祉造成影响等等。
在模拟社会中,提升个体数量可以显著提升模拟的可信度与真实性。然而,随着代理数量的上升,通信与消息传播问题会变得相当复杂,信息 的失真、误解或者幻觉现象都会显著降低整个模拟系统的效率。
有研究者认为,以 GPT-4 为代表的大模型已经在足够的语料上进行了训练,在此基础上构建的代理有潜力成为打开 AGI 之门的钥匙。但也有其他研究者认为,自回归语言建模(Auto- regressive Language Modeling)并不能显现出真正的智能,因为它们只是作出响应。一个更完备的建模方式,例如世界模型(World Model),才能通向 AGI。
然而,一味通过增加代 理的数量,是否会产生真正的「智能」?此外,如何协调单个代理,让智能代理社会克服「团体迷思」和个人认知偏差?
由于 LLM-based Agents 比大模型本身更加复杂,中小型企业或个人更加难在本地构建,因此云厂商可以考虑以服务的形式来将智能代理落地,即 Agent-as-a- Service。就像其他的云服务一样,AaaS 有潜力为用户提供高灵活性和按需的自助服务。