论文提供了UAVs的全面概述,包括功能模块以及具体配置,有助于理解UAV的核心组件。 系统地回顾了近年来关于LLMs与UAVs集成的最新研究,包括了关键方法、多样化应用和主要挑战。 提出了UAVs智能体框架,概述了实现自主感知、推理、记忆和工具利用的必要架构和能力。 详细列举了支持UAVs智能发展的公开数据集资源,强调了这些数据在训练、评估和支持智能UAVs系统开发中的关键作用。 对UAVs和LLMs汇聚的关键任务和应用场景进行了分类和分析,提供了实际应用的视角。
介绍
UAVs系统概述
UAVs功能模块
UAVs系统中各个功能模块扮演着不同的角色,共同协作,以实现特定的任务目标。
UAVs类型
具有固定的机翼形状,通过机翼产生升力以实现前进运动。 优点包括高速、长续航和稳定的飞行,适合长时间任务。 缺点是要求较高的飞行技能,无法悬停,对起飞和降落区域的要求较高。
通常配备多个旋翼(常见的是四轴、六轴或更多),通过旋翼旋转产生升力和控制。 优点包括低成本、易操作、能够垂直起降和悬停,适合精细任务。 缺点是续航时间有限、速度较慢、载荷容量较小。
配备一个或两个动力旋翼,提供升力和姿态控制。 优点包括垂直起降、悬停、高机动性、长续航和良好的抗风能力,适合复杂任务。 缺点是结构复杂、维护成本较高、速度相对较慢。
结合了固定翼和多旋翼的优点,能够在垂直飞行时使用旋翼,并在持续前进行驶时使用机翼。 优点包括灵活性高,能够执行多种任务,包括悬停和长距离飞行。 缺点是设计复杂、成本较高、维护要求高。
受鸟类或昆虫飞行机制的启发,通过翅膀拍打产生升力。 优点包括安静的操作、高效率和增强的机动性,适合紧凑尺寸的应用。 缺点是载荷容量较小,设计和控制系统较复杂。
利用轻质气体提供浮力,并通过推进和外部结构进行移动和方向控制。 优点包括低成本、低噪音。 缺点是灵活性有限、速度较低,容易受到风的影响,影响稳定性和可靠性。
UAVs集群通过分布式决策和协作,能够在复杂环境中实现更高的任务效率和可靠性。 适用于大面积监控、精准农业和搜救等任务,能够覆盖更大的区域并提高任务执行的效率。
任务分配是UAVs集群操作中的关键问题之一,直接影响任务的效率。任务分配问题通常被建模为旅行商问题(TSP)或车辆路径问题(VRP),并使用启发式算法、AI方法和数学规划方法来解决。 常用的算法包括遗传算法(GA)、粒子群优化(PSO)、模拟退火(SA)和混合整数线性规划(MILP)模型。
UAVs集群的通信可以通过基础设施架构和飞行自组织网络(FANET)来实现。基础设施架构依赖于地面控制站(GCS)进行管理,而FANET则通过UAVs之间的直接通信实现自主协调。 FANET架构具有灵活性和可扩展性,但需要更强的通信协议来确保可靠性和应对动态拓扑。
UAVs集群的路径规划涉及选择从起始位置到所有目标位置的最优路径,同时确保UAVs之间保持预定的距离以避免碰撞。 常用的算法包括智能优化算法(如蚁群优化、遗传算法、模拟退火、粒子群优化)和数学规划方法。 AI方法也被应用于UAVs集群路径规划,以增强其在复杂环境中的适应性和鲁棒性。
编队控制算法使UAVs集群能够自主形成和维持编队,以执行任务并根据特定任务切换或重建编队。 主要的控制方法包括集中控制、分散控制和分布式控制。集中控制简化了决策过程,但存在单点故障的风险;分散控制提供了灵活性,但全局信息不足;分布式控制结合了两者的优点,但需要更高的通信和计算资源。
大语言模型(LLMs)
泛化能力:LLMs通过在大规模语料库上训练,展现出强大的迁移能力,包括零样本(zero-shot)和少样本(few-shot)学习。这些能力使得LLMs能够在没有特定任务训练的情况下,或者仅通过少量示例就能有效地解决新任务。 复杂问题解决能力:LLMs能够通过生成中间推理步骤或结构化的逻辑路径来分解复杂问题,从而实现系统化和逐步的解决方案。这种方法被称为“思维链”(Chain of Thought, CoT)框架,通过分解任务为一系列子任务来逐步解决。
OpenAI的GPT系列:包括GPT-3、GPT-3.5和GPT-4,这些模型在语言理解、生成和推理任务中设定了新的基准。 Anthropic的Claude模型:包括Claude 2和Claude 3,这些模型通过强化学习优先考虑安全性和可控性,在多任务泛化和鲁棒性方面表现出色。 Mistral系列:采用稀疏激活技术,平衡了效率和性能,强调低延迟推理。 Google的PaLM系列:以其多模态能力和大规模参数化而闻名,后续的Gemini系列进一步提高了泛化能力和多语言支持。 Meta的Llama模型:包括Llama 2和Llama 3,在多语言任务和复杂问题解决方面表现出色。 Vicuna:通过微调对话数据集和低秩适应(LoRA)技术,增强了对话能力和任务适应性。 Qwen系列:在多语言任务中表现出色,适用于多种任务。 其他模型:如InternLM、BuboGPT、ChatGLM、DeepSeek等,专注于特定领域的任务,如知识问答、对话生成和信息检索。
3.应用场景:
在视觉推理方面,X-VLM、Chameleon、HYDRA和VISPROG等模型通过创新架构和推理机制,提高了复杂视觉推理任务的准确性和适应性。
视觉基础模型(VFMs)
1.核心优势: VFMs通常具有大规模参数,能够在大规模数据集上进行训练,从而展现出卓越的泛化能力和跨任务转移性能。 它们在各种计算机视觉任务中表现出色,包括零样本对象检测、图像分割和深度估计等。 2.技术特点: VFMs通过在大规模图像-文本对上进行弱监督训练,实现了视觉和文本特征的有效对齐。这种方法使得模型能够同时理解和生成视觉和语言信息。 典型的VFMs包括CLIP、FILIP、RegionCLIP、EVA-CLIP等。CLIP是一个开创性的模型,通过在大规模数据集上进行训练,实现了视觉和文本特征的对齐。 3.应用场景: VFMs在对象检测任务中表现出色,能够实现零样本检测和少样本学习。例如,GLIP、DINO、Grounding DINO等模型在对象检测任务中表现出色。 在图像分割任务中,VFMs通过结合视觉和语言信息,提高了分割的准确性和鲁棒性。例如,CLIPSeg、SAM、Open-Vocabulary SAM等模型在图像分割任务中表现出色。 在深度估计任务中,VFMs能够实现单目深度估计,适用于复杂场景。例如,ZoeDepth、ScaleDepth、Depth Anything等模型在深度估计任务中表现出色。 UAVs数据集与仿真平台
通用领域数据集
1.环境感知:主要用于对象检测、分割和深度估计等任务。它们提供了丰富的视觉数据,帮助训练和评估UAVs在复杂环境中的感知能力。典型数据集包括:
AirFisheye:专为复杂城市环境设计的多模态数据集,包含鱼眼图像、深度图像和点云数据。
SynDrone:大规模合成数据集,用于城市环境中的检测和分割任务,提供像素级和对象级的标注。
WildUAV:高分辨率RGB图像和深度数据集,用于单目视觉深度估计,支持精确的UAVs飞行控制。
2.事件识别:用于识别和分类视频中的事件,如灾难、交通事故、体育比赛等。它们帮助UAVs在动态环境中进行场景理解。典型数据集包括:
CapERA:结合视频和文本描述的事件识别数据集。
ERA:包含多种事件类别的视频数据集。
VIRAT:包含静态地面和动态空中视频的事件识别数据集。
3.目标跟踪:用于评估UAVs在多目标跟踪任务中的性能。它们通常包含多种模态的数据,如视频、文本和音频。典型数据集包括:
WebUAV-3M:大规模的UAVs目标跟踪数据集,包含视频、文本和音频描述。
TNL2K:结合自然语言描述的目标跟踪数据集,支持跨模态跟踪研究。
VOT2020:包含多种跟踪任务的综合性数据集。
4.动作识别:用于识别视频中的人类动作,帮助UAVs在复杂场景中进行行为分析。典型数据集包括:
Aeriform In-Action:用于空中视频中的人类动作识别。
MEVA:大规模的多视角、多模态视频数据集。
UAV-Human:包含多种模态的视频数据集,用于动作识别和人体行为分析。
5.导航和定位:用于评估UAVs在导航和定位任务中的性能,特别是在结合视觉和语言信息的情况下。典型数据集包括:
CityNav:用于语言引导的空中导航任务。
AerialVLN:结合视觉和语言信息的UAVs导航数据集。
VIGOR:用于交叉视图图像地理定位的数据集。
特定领域数据集
视觉感知
对象检测
改进训练策略:通过为特定UAVs场景训练专用模型或引入多任务学习框架来提高模型的鲁棒性。 自然语言与视觉结合:利用自然语言和视觉的互补优势,通过VLMs和VFMs的结合来提高检测的准确性和适应性。 零样本学习:VLMs和VFMs的零样本学习能力使其能够有效处理复杂任务并显著提高检测的准确性和鲁棒性。
语义分割
零样本语义分割:VLMs和VFMs能够在无需手动标注的情况下进行零样本语义分割,并通过自然语言交互灵活定义和指导分割任务。 跨域泛化:通过引入Earth-style注入和多任务训练策略,VLMs和VFMs在跨域泛化方面表现出色。
深度估计
TanDepth框架:Florea等人提出的TanDepth框架结合了Depth Anything模型的相对深度估计和全球数字高程模型(GDEM)数据,生成具有真实世界维度的精确深度图像。 鲁棒性和适应性:实验结果表明,TanDepth在复杂地形和动态飞行环境中表现出色。
视觉描述和VQA
细粒度描述生成:预训练在大规模多模态数据集上的VLMs和VFMs能够生成复杂的细粒度语义描述。 适应开放域任务:这些模型在开放域任务中表现出强大的任务泛化能力。
视觉语言导航
室内环境
NaVid:利用EVA-CLIP提取视觉特征,并结合Q-Former生成视觉和几何标记。该方法不需要地图、里程计或深度信息,仅通过单目视频流实现实时路径规划和动态调整。 VLN-MP:通过多模态提示增强任务理解,减少自然语言指令的歧义,并支持多样化和高质量的提示设置。该方法通过生成地标相关的图像提示并结合Grounding DINO或GLIP来增强数据多样性。
室外环境
AerialVLN:该任务要求UAVs根据自然语言指令和第一人称视觉感知导航到目标位置。AerialVLN通过扩展基线模型,结合GPT-4o进行自然语言指令的分解,并使用Grounding DINO和Tokenize Anything(TAP)提取语义掩码和视觉信息。 CityNav:通过模拟平台提供城市规模的3D环境,结合自然语言指令进行导航。MGP模型使用GPT-3.5解释地标名称、空间关系和任务目标,并结合Grounding DINO和MobileSAM生成高精度的目标区域。 UAV Navigation LLM:通过引入UAV-Need-Help基准任务,构建相关数据集,利用Vicuna-7B和EVA-CLIP提取视觉特征,并采用分层轨迹生成机制进行高效的自然语言导航。
视觉语言跟踪
CloudTrack:采用云-边缘协作架构,结合Grounding DINO和VLMs进行语义解析,实现复杂目标的检测和过滤。 NEUSIS:通过神经符号方法实现自主感知、推理和规划,支持在不确定环境下的目标搜索任务。
目标搜索
NEUSIS:通过感知、定位和3D推理模块实现目标检测、属性识别和3D投影。 Say-REAPEx:采用GPT-4o-mini作为主要语言模型,测试Llama3、Claude3和Gemini,动态更新任务状态并生成相应的行动计划。
规划
传统方法的挑战
LLMs的应用
TypeFly: 使用GPT-4解析用户提供的自然语言指令,生成精确的任务规划脚本。 引入轻量级任务规划语言(MiniSpec)以提高任务生成效率和响应速度。 集成视觉编码模块进行实时环境感知和动态任务调整。 SPINE: 设计用于非结构化环境中的任务规划,结合GPT-4和语义拓扑图进行推理和动态规划。 使用后退视界框架将复杂任务分解为可执行路径,实现动态调整和高效执行。 LEVIOSA: 通过自然语言生成UAVs轨迹,使用Gemini或GPT-4o进行高层次路径规划。 结合强化学习和多批评家共识机制优化轨迹,确保安全和能效要求。 TPML 和 REAL: 这些方法进一步扩展了LLMs在UAVs任务规划中的应用,强调了自然语言理解和生成在实时决策和复杂环境适应中的重要性。
单UAV飞行控制
LLMs的应用:LLMs通过少样本学习能力快速适应新任务需求,通过上下文学习能力动态分析任务环境并生成高层飞行策略。此外,基于语义的自然语言交互显著提高了人机协作的效率,支持任务规划、实时决策和复杂环境适应。 典型研究:Courbon等人提出了基于视觉记忆的导航策略,Vemprala等人开发了PromptCraft平台,结合ChatGPT和模拟环境进行自然语言驱动的飞行控制。
UAVs集群飞行控制
LLMs的应用:LLMs通过自然语言生成时间序列航点,优化路径以满足物理约束和避障要求。Swarm-GPT和FlockGPT等方法结合模型安全运动规划和LLMs,实现UAVs集群的创新控制方案。 典型研究:Jiao等人提出了Swarm-GPT系统,通过重新提示动态修改飞行路径,实现灵活的编队和动态调整。CLIPSwarm探索了自动化和创意的控制方案,提升UAVs集群表演的效率和操作性。
基础平台
DTLLM-VLT:该框架通过多粒度文本生成增强VLT性能。使用SAM提取目标分割掩码,并结合Osprey生成初始视觉描述。LLaMA或Vicuna生成多种粒度的文本注释,覆盖目标类别、颜色、动作和动态变化,从而提高语义支持,增强跟踪准确性和鲁棒性。 CNER-UAV:该数据集用于UAVs递送系统中的细粒度中文命名实体识别。利用GPT-3.5和ChatGLM实现精确的地址信息识别。 GPG2A:该模型通过从地面图像合成航空图像来解决视角转换问题。采用两阶段生成框架,结合BEV布局图和文本描述生成高质量航空图像,优化语义相关性和场景一致性。 AeroVerse:该平台作为航空智能基准套件,集成模拟器、数据集、任务定义和评估方法,推动UAVs技术在感知、认知、规划和决策方面的发展。 其他框架和平台:包括Tang等人开发的UAVs控制安全评估框架,Xu等人设计的紧急通信网络优化框架,以及Pinelli等人提出的UAVs语音控制框架。这些框架结合自然语言处理技术,最大化人机交互的潜力。
UAVs应用场景
监控
车辆检测和分类:UAVs结合FMs可以自动进行车辆检测、分类、行人检测、骑行者检测、速度估计和车辆计数。 智能决策:利用VLMs进行视觉信息获取,结合LLMs进行分析和决策,使UAVs能够自主进行城市巡逻、识别和跟踪任务。 农业应用:在农业应用中,FMs可以帮助农民提高生产力和产量。
物流
优化调度和路线规划:利用FMs的推理和决策能力,优化UAVs的调度和路线规划,提高自动化水平和处理效率。 人机交互:FMs的强理解能力改善了人机交互体验,提供更好的用户体验。 供应链管理:通过区块链技术和自然语言交互,实现安全的UAVs物流系统。
应急响应
快速决策:利用FMs的上下文学习能力,快速生成可操作的应急计划,并实时更新和调整。 复杂数据处理:结合多种传感器进行自主执行复杂任务,提高UAVs的实时决策能力。 通信网络建立:在偏远或受灾地区建立通信网络,支持网络依赖的任务和离线应急响应。
UAVs智能体:基础模型与UAVs系统集成框架
数据模块
数据准备
多模态传感器数据:包括图像、视频、LiDAR、GPS、IMU等数据,这些数据用于训练UAVs的感知和导航能力。 自然语言指令:操作员提供的指令通常用于指导UAVs的任务执行。这些指令可能需要在数据集中手动标注或通过自动化方法生成。
自然语言指令生成
图像标注模型:利用这些模型生成关于UAVs图像中特定对象或事件的描述性注释。 自动化生成:先进的FMs,如基于GPT的模型,可以自动化生成多样化且上下文丰富的指令,减少对人工努力的依赖。
数据集构建
导航和地理定位:例如,Chu等人开发的基准数据集通过添加文本-图像-边界框注释来提高地理定位的准确性。 遥感应用:UAVs图像用于对象检测、语义分割和环境监测等任务,多模态大模型显著提高了任务效率和准确性。
基础模型模块
基础模型选择
语言模型(LLMs):适用于需要自然语言处理的任务,如任务规划、决策制定和人机交互。典型模型包括ChatGPT和LLAMA。 视觉语言模型(VLMs):适用于需要处理视觉和语言数据的多模态任务。典型模型包括GPT-4V、LLaVA和Qwen2-VL。 3D模型:适用于在3D环境中操作的UAVs,能够处理点云数据并进行3D规划和任务执行。这些模型通过增强场景几何理解来提高任务执行的灵活性。
模型优化
指令微调(Instruction Tuning):通过创建任务特定的模板,将任务背景知识嵌入模型的交互中。这种方法允许模型更好地理解和执行特定任务。 少样本学习(Few-shot Learning):使用精心策划的示例帮助模型快速掌握任务目标,特别适用于复杂任务。 思维链(Chain of Thought, CoT):将任务分解为多个子任务,逐步解决以提高推理和执行能力。 低秩适应(Low-Rank Adaptation, LoRA):通过微调模型的部分参数来优化性能,同时保持计算效率。 基于人类反馈的强化学习(RLHF):通过结合人类反馈的奖励信号来增强模型的对齐和适应性,使其能够更好地应对动态UAVs挑战。
知识模块
RAG技术概述
检索模块:从外部知识库中获取与输入内容相关的信息。这些信息可以是实时的环境数据、历史记录或其他相关领域的知识。 生成模块:利用检索到的信息作为上下文,生成更准确和可靠的输出。这种方法有助于减少生成过程中的“幻觉”问题,即模型在没有足够背景知识的情况下生成错误或虚构的信息。
在UAVs系统中的应用
实时环境数据访问:RAG可以提供实时的气象条件、地形信息和空中交通更新等环境数据,帮助UAVs进行飞行规划和导航。 高级决策支持:通过集成领域特定的知识库,UAVs可以在动态环境中进行更高级别的任务调整和决策。 人机交互增强:RAG可以检索历史数据或上下文信息,以增强与操作员的交互,提供更清晰的任务指导和系统决策的解释。
优势与应用前景
工具模块
通用工具
VLMs:如GPT-4V和LLaVA,这些模型通过结合视觉和语言信息,提供强大的任务执行能力。它们在对象识别、场景理解和任务规划等方面表现出色。 VFMs:如CLIP系列和SAM模型,这些模型在视觉任务中表现出色,特别是在对象检测、语义分割和深度估计等方面。它们能够处理复杂的多模态任务,并提供零样本学习能力。
任务特定工具
飞行控制器:如PX4和Pixhawk,这些工具提供精确的飞行控制和任务规划功能,使UAVs能够在复杂环境中稳定飞行和执行任务。 任务规划软件:这些软件结合自然语言处理和机器学习技术,帮助UAVs进行高效的路径规划和任务分配。
工具模块的应用
增强感知能力:VLMs和VFMs提供强大的视觉处理能力,帮助UAVs在复杂环境中进行精确的目标检测和语义理解。 提高任务执行效率:任务特定工具提供高效的飞行控制和任务规划功能,使UAVs能够快速响应和执行任务。
智能体模块
管理者智能体
全局任务规划:将大型任务分解为更小的、可管理的子任务,并将这些子任务分配给各个UAVs。 动态调整:根据实时反馈动态调整任务分配,确保每个UAVs在更广泛的使命背景下有效运作。
UAVs智能体工作流
感知智能体:首先处理传感器数据,使用先进的视觉语言模型(如CLIP)进行对象识别、分割和定位。 规划智能体:利用感知智能体提供的数据生成优化的飞行路径和任务策略,确保UAVs能够高效地导航和完成任务。 控制智能体:将规划转化为可执行的命令,控制UAVs的飞行和任务执行。
智能体协作与适应性
全局指导:全局智能体提供高层次的指令,指导整体任务策略。这些指令被分解为详细的执行计划,由各个UAVs智能体执行。 实时调整:UAVs智能体通过实时数据反馈和不断变化的条件进行任务调整,确保任务的顺利进行。 信息共享:UAVs之间通过信息共享和协调行动,适应共享的情境意识,如避免碰撞或协同完成任务等。
总结
作者:Yonglin Tian, Fei Lin, Yiduo Li, Tengchao Zhang, Qiyao Zhang, Xuan Fu, Jun Huang, Xingyuan Dai, Yutong Wang, Chunwei Tian, Bai Li, Yisheng Lv, Levente Kovacs, Fei-Yue Wang 单位:中科院自动化所多模态人工智能系统国家重点实验室,澳门科技大学创新工程学院工程科学系,北京理工大学自动化学院,西北工业大学软件学院,湖南大学机械与车辆工程学院,布达佩斯奥布达大学冯·诺伊曼信息学院 原文链接:UAVs Meet LLMs: Overviews and Perspectives Toward Agentic Low-Altitude Mobility (https://arxiv.org/pdf/2501.02341) 项目主页:https://github.com/Hub-Tian/UAVs_Meet_LLMs