北京大学杨越教授最新JFM!基于深度强化学习的水母式游动机器人对移动目标的追踪!
发布日期:2025-08-20 
北京大学杨越教授团队开发了一种基于深度强化学习的方法,用于训练一种类水母游动机器人在二维流场中高效追踪移动目标该游动体是一种柔性物体,配备基于扭簧的肌肉模型。我们采用深度Q网络(DQN),以游动体的几何形状和动态参数作为输入,输出施加于其上的作用力作为动作指令。特别地,该方法引入了动作调节机制,以减轻复杂流固耦合作用带来的干扰。这些动作的目标是引导游动体以最短时间抵达目标点。在DQN训练中,游动体的运动数据通过浸没边界法数值模拟获取。在追踪移动目标时,由于脱落涡流与游动体自身运动之间的流体动力相互作用,作用力的施加与游动体的响应之间存在固有延迟。测试表明,搭载DQN智能体与动作调节机制的游动体能根据瞬时状态动态调整行进路线。此项工作拓展了机器学习在流体环境中柔性物体控制领域的应用范围。

研究成果以“Deep reinforcement learning for tracking a moving target in jellyfish-like swimming”为题发表于流体力学领域旗舰期刊Journal of Fluid Mechanics。
1、研究背景
流体控制新需求:传统流体力学控制方法在强流固耦合(FSI)场景下面临建模困难,尤其在柔性体运动中存在动作延迟、涡流干扰等挑战
仿生应用价值:水母凭借高效推进机制(能量利用率比人工推进器高48%)成为海洋探测机器人理想模型,但其转向控制机理长期未被攻克
技术驱动:深度强化学习(DRL)在流体控制领域取得突破(如翼型路径跟踪、圆柱减阻),但尚未应用于强FSI环境的目标追踪任务
2、解决的问题
动作延迟效应:水母运动产生的脱落涡流对后续动作产生持续干扰,导致施力与机体响应存在显著时滞
状态感知局限:生物导航可能仅依赖瞬时环境信息(无历史记忆),传统DRL需融合时序数据的方案不适用
控制复杂性:柔性体变形与流体动力学的强非线性耦合,使训练过程难以收敛
3、研究的方法
(1)仿生肌肉模型:基于扭簧构建无扭矩形变肌肉单元(159个拉格朗日点);正弦力驱动机制:通过调节双侧力幅值差实现转向控制。
(2)动作调节机制:引入周期性施力间歇(如动作序列A1→A3→A0),抑制尾涡抵消现象;将动作空间简化为4种基础模式:对称施力/左主导/右主导/零力。
(3)瞬时状态DRL框架:仅输入当前时刻几何与动力学参数(无需历史状态);采用DQN网络直接输出最优Q值动作。
(4)流体-控制联合仿真:基于浸没边界法(IBM)生成训练数据;奖励函数设计:$r(s,a)=A/Δx - B·|θ_{err}| - C·t$(平衡距离、航向角与时间成本)。
4、实现的效果
(1)固定目标追踪:追踪效率较基线策略提升63%;在Re=100-500范围保持鲁棒性。
(2)移动目标追踪:成功跟踪直线/圆周轨迹,质心轨迹误差<5%;突破动作延迟限制:即使存在0.3T的涡致时滞,仍实现航向动态调整。
(3)流场调控机制::动作调节使涡量场有序脱落,推进效率提升27%;消除无调节时的涡流对消现象。
5、创新点
(1)首创柔性水母DRL控制范式:首次实现强FSI环境下的纯瞬时状态目标追踪,突破传统DRL需历史记忆的限制。
(2)仿生-控制深度融合:扭簧肌肉模型还原生物推进机理;动作调节机制模拟水母神经节律控制。
(3)计算流体力学新应用:建立IBM-DRL联合仿真框架,为流体智能控制提供新工具。
(4)揭示生物导航机理:通过DRL策略反推水母可能采用"感知-动作"即时响应模式(解释其无中枢神经系统的导航能力)。

图文速览

图1:整体工作流程示意图。(a) 通过多组仿真数据获取离线训练样本。(b) 类水母游动体的几何构型与状态参数,红色区域标示作用力施加部位。(c) 包含四种动作(A_i,i = 0,1,2,3)的动作空间,分别表征典型水母运动模式(从左至右):两侧对称施力、右侧主导施力、左侧主导施力、零施力状态。(d) 随机动作的多组仿真(左侧虚线框)与经验元组(s_t, a_t, r_t, s_{t+Δt}, D)采集过程(右侧虚线框)。(e) DQN模块接收状态向量并输出各动作Q值,最终选择Q值最高的动作。(f) 经训练后的智能体在不同追踪任务中的测试效果,补充视频1-2展示了游动体追踪移动目标的动态过程。

图2:类水母模型游动体由159个拉格朗日点构成。相邻两点间通过弹簧连接(黑色实线表示),每三个相邻点间通过梁单元连接(黑色虚线表示)。不同颜色对应不同梁单元。右图展示了三个相邻点构成的离散纤维梁模型:红色虚线表示梁单元,三个圆点代表梁模型的左(X_L)、中(X_M)、右(X_R)三个相邻点,其位移矢量分别记为X_L、X_M、X_R,对应的拉格朗日力分别为F_L、F_M、F_R。
图3:奖励函数r(s,a)的等高线图(典型参数:A=20,B=10,d=0.1)
图4:(a-c) 游动体追踪固定目标(左前方、正前方和右前方)的运动轨迹,红点表示起点和目标点。(d) 配备动作调节机制的游动体右转过程(t/T=0, 0.2, 0.4, 0.6, 0.8, 1时刻的涡量幅值等高线图),动作序列为A1、A3、A0、A0。(e) 游动体追踪右前方目标时的运动轨迹及涡量幅值等高线图(f) 追踪右前方目标过程中θ角和Ω角速度的时序变化
图5:无动作调节机制的游动体右转过程。(t/T=0、0.2、0.4、0.7、0.8、1时刻的涡量幅值等高线图)。动作序列为A1、A1、A0、A0,其中第二拍施加非对称作用力。不同拍次产生极性相反的尾涡(蓝圈标示区域),这些涡流相互抵消导致推进效率下降。
图6: (a) 游动体质心运动轨迹(红蓝线)与移动目标轨迹(绿线)。红色与蓝色线段分别表示施力与未施力状态下的动作。六个时间点的瞬时状态展示包括:游动体形态(黑色曲线)、周围涡量分布(彩色等高线)及目标点位置(绿点)。(b) 追踪移动目标过程中θ角与Ω角速度的时序变化,圆形目标轨迹的追踪过程详见补充视频1。

文章小结

本研究开发了一种基于深度强化学习的控制方法,用于实现二维类水母游动机器人的移动目标追踪。该控制策略采用深度Q网络(DQN)智能体,其决策基于游动体的瞬时状态。这个柔性游动体采用扭簧肌肉模型,其特点是在形变时不产生扭矩。我们通过在游动体肌肉部位施加一对正弦力,并通过调节力幅值来实现运动控制。

游动体在流体中的运动数据通过浸没边界法数值模拟获取,并用于DQN智能体的训练与验证。为使游动更趋自然并降低训练难度,我们引入了动作调节机制:通过在特定时段暂停施力,有效抑制游动体拍动运动产生的尾涡抵消现象。

配备DQN智能体与动作调节机制的游动体,展现出对固定/移动目标的双重追踪能力。动作调节机制削弱了历史动作诱导流场的影响,使游动体能基于当前状态独立输出控制动作。

在固定目标追踪基准测试中,DQN智能体的控制效率显著优于附录A的基线策略,且在不同雷诺数下均保持稳健性能。面对移动目标追踪的挑战性任务时,由于脱落涡流与游动体运动之间的流体动力相互作用,施力动作与机体旋转响应存在固有延迟。游动体仍能根据瞬时状态动态调整航向,这种抗干扰能力凸显了DQN智能体的强健决策特性。

当应对更复杂的"8字形"等目标轨迹时,智能体性能显现局限。这一现象揭示了自然导航策略(特别是生物原生环境中的运动策略)涉及的多因素耦合机制。例如,真实水母会综合运用内部状态信号(如速度)和外部环境信息(如流场动态)实现精准导航。

本研究将二维类水母游动体的运动能力从前进游动拓展到目标追踪,探索了其控制策略,拓宽了强化学习在流体动力学中的应用边界。鉴于游动体运动涉及强流固耦合作用,智能体可能需要更多信息来优化决策。未来可通过以下方式提升性能:获取周围流场更多信息、预测目标位置、融合历史状态数据,以及采用循环神经网络(RNN)或Transformer等能捕捉时序特征的网络架构来构建更高阶控制策略。

原文链接:

https://doi.org/10.1017/jfm.2025.10470
文章来源:力学说