文章摘要: 多模态 AI 系统可能会在我们的日常生活中无处不在。使这些系统更具交互性的一种有前途的方法是将它们作为物理和虚拟环境中的代理。目前,系统利用现有的基础模型作为创建具身代理的基本构建块。在此类环境中嵌入代理有助于模型处理和解释视觉和上下文数据的能力,这对于创建更复杂和上下文感知的 AI 系统至关重要。例如,可以感知用户操作、人类行为、环境对象、音频表达和场景集体情绪的系统可用于通知和指导给定环境中的代理响应。为了加速对基于智能体的多模态智能的研究,我们将“智能体 AI”定义为一类交互式系统,可以感知视觉刺激、语言输入和其他基于环境的数据,并可以产生有意义的具体动作。特别是,我们探索了旨在通过整合外部知识、多感官输入和人类反馈来改进基于下一个具体动作预测的代理的系统。我们认为,通过在接地环境中开发代理 AI 系统,还可以减轻大型基础模型的幻觉及其产生环境不正确输出的倾向。代理 AI 的新兴领域包含多模态交互的更广泛的具体和代理方面。除了代理在物理世界中行动和交互之外,我们设想的未来人们可以轻松创建任何虚拟现实或模拟场景,并与虚拟环境中体现的代理进行交互。
重要
标题
- Agent AI: Surveying the Horizons of Multimodal Interaction
- Agent AI:调查多模式交互的视野
作者
- Zane Durante, Qiuyuan Huang, Naoki Wake, Ran Gong, Jae Sung Park, Bidipta Sarkar, Rohan Taori, Yusuke Noda, Demetri Terzopoulos, Yejin Choi, Katsushi Ikeuchi, Hoi Vo, Li Fei-Fei, Jianfeng Gao
时间
- 2024-01-25
关键词
- 人工智能(cs.AI);人机交互(cs.HC);机器学习 (cs.LG)
论文地址
- https://arxiv.org/abs/2401.03568
引言
多模态 AI 系统可能会在我们的日常生活中无处不在。
使这些系统更具交互性的一种有前途的方法是将它们作为物理和虚拟环境中的代理。
目前,系统利用现有的基础模型作为创建具身代理的基本构建块。
在此类环境中嵌入代理有助于模型处理和解释视觉和上下文数据的能力,这对于创建更复杂和上下文感知的 AI 系统至关重要。
例如,可以感知用户操作、人类行为、环境对象、音频表达和场景集体情绪的系统可用于通知和指导给定环境中的代理响应。
为了加速对基于智能体的多模态智能的研究,我们将“智能体 AI”定义为一类交互式系统,可以感知视觉刺激、语言输入和其他基于环境的数据,并可以产生有意义的具体动作。
特别是,我们探索了旨在通过整合外部知识、多感官输入和人类反馈来改进基于下一个具体动作预测的代理的系统。
我们认为,通过在接地环境中开发代理 AI 系统,还可以减轻大型基础模型的幻觉及其产生环境不正确输出的倾向。
代理 AI 的新兴领域包含多模态交互的更广泛的具体和代理方面。
除了代理在物理世界中行动和交互之外,我们设想的未来人们可以轻松创建任何虚拟现实或模拟场景,并与虚拟环境中体现的代理进行交互。
研究背景
- 简要介绍研究背景和意义
研究现状
- 概述当前领域的研究现状
本文贡献
- 列出本文的主要贡献和创新点
相关工作
方法1
- 简要介绍相关方法1
方法2
- 简要介绍相关方法2
方法/理论
方法概述
- 详细描述本文提出的方法/理论
实现步骤
- 列出实现方法的具体步骤
优点与不足
- 分析方法的优点和不足
实验/数据分析
数据集描述
- 介绍实验所使用的数据集
实验方法
- 描述实验过程和方法
实验结果
- 展示实验结果
结果分析
- 分析实验结果的含义和意义
结论与展望
结论
- 总结本文的研究成果
展望
- 提出未来研究方向和改进空间
参考文献和引文
- 参考文献1
- 参考文献2
- 参考文献3