科学技术与工程

智能体	测试次数	成功次数
ResDDPG	2 000	1 956	1 809	97.80	90.45
DDPG	2 000	1 931	1 646	96.55	82.30
轨迹跟踪 ^[9]	2 000	1 722	1 473	86.10	73.65
CE-RRT ^[10]	2 000	1 279	1 137	63.95	56.85

智能体	测试次数	成功次数
ResDDPG	2 000	1 956	1 809	97.80	90.45
DDPG	2 000	1 931	1 646	96.55	82.30
轨迹跟踪 ^[9]	2 000	1 722	1 473	86.10	73.65
CE-RRT ^[10]	2 000	1 279	1 137	63.95	56.85

面向经腔道自主规划的残差强化学习方法

PDF下载

汤向荣 ¹ , 边桂彬 ¹^,² , 李桢 ² , 马睿宸 ²^,^*

科学技术与工程 | 论文·自动化技术、计算机技术 2025,25(17): 7244-7251

收起

科学技术与工程 | 论文·自动化技术、计算机技术 2025, 25(17): 7244-7251

面向经腔道自主规划的残差强化学习方法

全屏

汤向荣¹, 边桂彬¹^,², 李桢², 马睿宸²^,^*

作者信息

¹ 北京信息科技大学自动化学院, 北京 100192

² 中国科学院自动化研究所, 北京 100190

汤向荣(1997—),男,汉族,江苏泰州人,硕士研究生。研究方向:手术机器人自主规划。E-mail:2021020401@bistu.edu.cn。

通讯作者:

*马睿宸(1993—),男,汉族,陕西西安人,博士,助理研究员。研究方向:手术机器人。E-mail:maruichen2016@ia.ac.cn。

Residual Reinforcement Learning for Autonomous Transluminal Intervention

Xiang-rong TANG¹, Gui-bin BIAN¹^,², Zhen LI², Rui-chen MA²^,^*

Affiliations

¹ School of Automation, Beijing Information Science and Technology University, Beijing 100192, China

² Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China

出版时间: 2025-06-18 doi: 10.12404/j.issn.1671-1815.2404338

文章导航

摘要

收起

使用连续体机器人的经自然腔道介入面临介入路径曲折狭窄和腔道软组织挤压受力等挑战。针对介入递送过程中,现有规划方法难以兼顾多个控制目标,导致难以到达较深位置的问题,提出一种基于残差强化学习的自主规划方案。该方法能够实现柔性连续体机器人经自然腔道的自主递送。通过建立连续体机器人递送姿态与自然腔道空间状态间的反馈偏差模型来控制递送过程中的姿态目标。同时建立连续体机器人的整体运动过程的马尔可夫模型,用于强化学习算法的训练过程。利用姿态反馈控制与强化学习控制相结合产生的残差策略来输出连续体机器人递送过程的最优动作。在仿真支气管腔道中的实验表明,所提出的方法比现有方法的收敛速度快60%以上,能够以平滑、无碰撞的轨迹规划连续体机器人的经腔道介入过程,在多个指标方面优于现有方法。

关键词

连续体机器人 / 自主规划 / 残差策略 / 经腔道介入 / 强化学习

Abstract

收起

The natural orifice intervention using continuum robots faces challenges such as tortuous and narrow intervention paths, as well as compressive forces exerted by soft tissues in the orifice. To address the issue in the delivery process where existing planning methods struggle to balance multiple control objectives, resulting in difficulty in reaching deeper positions, an autonomous planning scheme based on residual reinforcement learning was proposed. The method enables the autonomous delivery of continuum robots through natural orifices. A feedback deviation model between the delivery posture of the continuum robot and the spatial state of the natural orifice was established to control the posture target during the delivery process. Simultaneously, a Markov model of the overall motion process of the continuum robot was constructed to train the reinforcement learning algorithm. A residual strategy, generated by combining posture feedback control with reinforcement learning control, was used to output the optimal actions for the continuum robot's delivery process. Experiments conducted in a simulated bronchial orifice show that the proposed method converges over 60% faster than existing methods and can plan smooth, collision-free trajectories for the continuum robot's intervention through the orifice, outperforming existing methods in several key metrics.

Key words

continuum robot / autonomous planning / residual strategy / transluminal intervention / reinforcement learning

引用本文

汤向荣, 边桂彬, 李桢, 马睿宸. 面向经腔道自主规划的残差强化学习方法. 科学技术与工程, 2025 , 25 (17) : 7244 -7251 . DOI: 10.12404/j.issn.1671-1815.2404338

Xiang-rong TANG, Gui-bin BIAN, Zhen LI, Rui-chen MA. Residual Reinforcement Learning for Autonomous Transluminal Intervention[J]. Science Technology and Engineering, 2025 , 25 (17) : 7244 -7251 . DOI: 10.12404/j.issn.1671-1815.2404338

正文

收起

具有多自由度且能够连续变形的柔性连续体机器人,因其优越的柔顺性能与交互安全性,已在医疗康复、海洋科考、资源勘探等领域引起关注^[1]。在形态多变、曲折幽深的人体自然腔道(如呼吸道、消化道等)中,柔性连续体机器人能够实现顺应环境曲率变化的递送过程,已成为手术机器人领域的研究热点^[2-3]。为了将连续体机器人递送到狭窄的自然腔道深处,需要保持连续体机器人的整体曲率与其所处的腔道相近,并将连续体机器人的远端维持在腔道截面的中心处。当控制连续体机器人进入曲折幽深的人体腔道时,需要避免机器人远端与腔道壁发生碰撞。鉴于新型连续体机器人所具有的高度灵活性,需要提出一种新颖的连续体机器人自主规划方法,以控制机器人在复杂曲折、直径大小不一的自然腔道环境中运动到指定位置。

现有的机器人运动规划研究大多使用传统的搜索和采样规划方法^[4-10]。肖瑶等^[5]提出一种基于改进 A* 算法的四足机器人规划算法。Hawks 等^[6]通过分析连续体机器人的构型空间结构确定约束条件,使用快速搜索随机树 (rapid-exploration random tree, RRT) 来生成连续体机器人规划过程中的运动学参数。Mbakop等^[7]提出一种具有给定长度参数的空间勾股速度图来建模形状运动学,并用人工势场法控制机器人形状在障碍物中自适应变化。现有的方法只能进入人体腔道中直径较大、曲率较小的位置,且难以兼顾多个控制目标。对于部分难以显式建模的控制目标,现有规划方法难以取得较好的控制效果。

近年来,深度强化学习(deep reinforcement learning, DRL) 因其强大的特征提取和决策能力,在机器人和无人系统的控制任务中得到了广泛的应用^[11-17]。现代异轨策略,如深度Q网络 (deep Q-network, DQN) 和深度确定性策略梯度 (deep deterministic policy gradient, DDPG) 等^[11-12],可以在与环境实时交互的同时,保持高效的样本利用率。在自主无人系统领域,周治国等^[13]提出一种用于无人艇避障规划的改进DQN算法。在机器人规划领域,Segato等^[14]提出一种在 GPU 上运行的异步优势演员批评家 (asynchronous advantage actor-critic,A3C) 算法,用于微创神经外科导管插入术。该场景下机器人的状态空间范围非常小,使得将该方法直接转移到具有不同角度的腔道中具有挑战性。Chi等^[15]提出一种近端策略优化 (proximal policy optimization, PPO) 结合生成对抗性模仿学习(generative adversarial imitation learning, GAIL) 的血管内导丝介入框架。该方法在几种不同的模型中进行了测试。在人体腔道内窥镜检查领域,Li 等^[16]使用注意力机制来解释超声图像中的内窥镜姿势,以进行经食管机器人导航。使用内窥镜或超声图像的规划方法需要高质量的医学成像并使用实际的机器人进行训练。该方法专注于在仿真环境中构建和训练模型的框架,以减少对真实机器人的依赖。Wohlke等^[17]提出一种将强化学习方法与演示相结合的分层学习方法。该方法利用以对象为中心的演示分割,将教学轨迹自动分割为片段,同时采用并行训练机制的两级分层模拟学习方法,以同时训练两级策略。该方法在稀疏奖励场景中有较好表现。然而,当在弯曲、狭窄和直径逐渐减小的腔道中运动时,不仅需要考虑角度偏差,还需要考虑连续体机器人远端在腔道中的位置。需要提出一种表征人体腔道空间结构的特征提取方法,用以表征连续体机器人的运动状态变化。

残差强化学习最近已成为解决复杂机器人控制问题的一种有前景的技术^[18]。传统的反馈控制方法可以通过显式建模来解决各种机器人控制问题。这些控制方法可以有效缓解强化学习方法中由于状态空间过大带来的灾难性遗忘问题。DRL 方法已被证明能够从与环境的交互中提取状态特征并学习机器人控制策略,这可以解决用反馈控制方法难以建模的控制问题。将困难的连续体机器人控制问题分解为通过传统反馈控制方法有效解决的部分和通过 DRL 解决的残差问题。最终产生的控制策略是这两个控制器的叠加。

综上所述,针对现有规划方法难以兼顾多个控制目标,且控制目标难以显式建模的问题,现提出一种结合残差强化学习和人体腔道空间状态引导的残差 DDPG 算法 (residual DDPG, ResDDPG),用于在直径逐渐减小的腔道环境中控制连续体机器人运动到指定位置。提出一种姿态反馈控制器,以建模连续体机器人运动规划问题中的姿态控制目标,并作为传统控制器。建立连续体机器人在人体腔道中运动过程的马尔可夫模型,以满足残差目标的控制要求。最后通过仿真试验证明所提出的算法在收敛速度、到达能力和过程指标方面的优越性。

1 连续体机器人运动环境建模

收起

1.1 人体腔道空间结构特征表示

基于随机采样的运动规划方法需要在栅格地图上采样,并使用碰撞盒完成碰撞检测才能找到可行动作。在具有复杂空间结构的三维环境中,使用这种点云模型的成本过于高昂。使用人体腔道引导线的特征信息来表示人体腔道空间结构。腔道引导线被定义为从起点向腔道内部延伸,并在分叉处分叉开的连续曲线,用于引导递送装置在腔道内前进。

在医学3D软件,如Mimics中,可使用公开医学影像数据集提取3D空间中的多个坐标点数据,重建形成自然腔道中心线段。所提取的中心线段可以近似代替引导线的作用。使用的腔道引导线是由上述中心线段连接而成的空间线段集合。图1所示为在Mimics中提取的支气管中心线数据。根据支气管腔道的形状特征,可以建立该处腔道的空间特征信息模型,用于DRL算法训练。

如图1所示,将引导线段绕x轴旋转的α角定义为旋转角,绕z轴旋转的β角定义为扭转角。α的范围为 [-90°, 90°],β的范围为[-180°, 180°]。腔道引导线段的空间特征信息可以用包含姿态,位置和腔道截面特征的空间信息四元组 I_SF={α,β,l_orf,R_orf}来表示,其中,l_orf为一段引导线段的长度,R_orf为引导线段所在自然腔道的直径,即截面特征。

1.2 连续体机器人结构与描述

研究对象是一种由两段主动段和一段被动段组成的连续体机器人。机器人整体呈蛇形连续结构,可通过被动段末端的推送装置送入人体自然腔道深处。机器人主动段能够向所有方向弯曲 90°,两段共可弯曲 180°,因此机器人每段主动段的自由度数目为3个。主动段在连续体机器人结构中起到远端导向的作用,能够引导被动段在弯曲的腔道环境中改变方向,以在狭窄、幽深的环境内实现递送功能。被动段将主动段连接至推动装置,具有与主动段相同的弯曲性能。

如图2所示,连续体机器人的姿态可以通过曲率角θ和偏转角ϕ来描述,且θ∈[0°,90°],ϕ∈[0°,360°]。因此连续体机器人的正向运动学可以通过分段常曲率(piecewise constant curvature, PCC)模型^[19]来描述。

2 自主规划策略框架

收起

在第 1 节建立的环境和机器人模型的基础上,提出一种基于残差强化学习的连续体机器人自主规划框架。图3显示了所提出策略的总体架构。所提出的方法由两个控制器组成。首先是基于传统的反馈控制理论,控制连续体机器人沿着输出与期望姿态之间的误差最小化的方向移动。在传统控制器的基础上叠加DRL控制器,用以为运动过程中其他难以显式建模的控制目标建立马尔可夫转移模型,并求解出整体的最优策略。

2.1 姿态反馈控制器

提出一种姿态反馈控制器(attitude feedback controller, AFC)作为ResDDPG中的传统控制部分。该控制器建模经腔道介入中的期望姿态,以连续体机器人两段主动段远端的姿态与对应引导线角度之间的偏差作为最小化目标。具体来说,对每段主动段,当前所处引导线位置定义为到远端中点具有最短垂线段的引导线段。

连续体机器人主动段远端姿态表示如图4所示。以第1段主动段为例,单段主动段远端的姿态可以用姿态四元数q₁来表示。在标准PCC模型的框架下,四元数旋转轴v_q_,1为

(1)${v}_{q,1}=\mathrm{ }[{x}_{q,1},{y}_{q,1},{z}_{q,1}{]}^{\mathrm{T}}={Tv}_{z}$

式(1)中: v_z=[0,0,1]^T为一个垂直于z轴的初始方向向量;T为PCC模型中的姿态变换矩阵。

在ResDDPG中,连续体机器人远端姿态表示是通过分解旋转轴v_q_,1的姿态得到的。在标准PCC模型下,连续体机器人在x轴方向的姿态角度a_1,_x可以通过轴v_q_,1及其投影向量的夹角来定义为

(2)${a}_{1,x}=\mathrm{a}\mathrm{r}\mathrm{c}\mathrm{s}\mathrm{i}\mathrm{n}\frac{{y}_{q,1}}{{\Vert {v}_{q,1}\Vert }_{2}}$

同样,在y轴方向的姿态角度a_1,_y可以通过轴v_q_,1投影向量v_q_,1,_y与z轴的夹角来定义为

(3)${a}_{1,y}=\mathrm{a}\mathrm{r}\mathrm{c}\mathrm{c}\mathrm{o}\mathrm{s}\frac{{z}_{q,1}}{{\Vert {v}_{q,1,y}\Vert }_{2}}$

由上述姿态角的求解过程可得两个角度的范围,即a_1,_x,a_1,_y∈[-90°,90°]。按照类似方法,可以定义第二段主动段与被动段的姿态角度a_2,(_x_,_y₎和 a_base,(_x_,_y₎。

姿态反馈控制器的原理如图5 所示。假设被动段尾部的固定坐标系与引导线方向相同。由于关节执行器的角度与中心线的角度相似,如图5 所示,对于第二段主动段,下一时刻的期望角度是与引导线对应的角度。对于第一段主动段,下一时刻的期望角度需要考虑第二个主动段在下一时刻产生的角度。因此,连续体机器人的期望角度可以用 a_base,(_x_,_y₎ 与引导线角度之间的偏差来表示为

(4)$\left\{\begin{array}{l}{a}_{\mathrm{g}\mathrm{o}\mathrm{a}\mathrm{l},2,x}^{\mathrm{a}\mathrm{f}\mathrm{c}}={\alpha }_{2}-{a}_{\mathrm{b}\mathrm{a}\mathrm{s}\mathrm{e},x}\\ {a}_{\mathrm{g}\mathrm{o}\mathrm{a}\mathrm{l},1,x}^{\mathrm{a}\mathrm{f}\mathrm{c}}={\alpha }_{2}-{a}_{2,x}-{a}_{\mathrm{g}\mathrm{o}\mathrm{a}\mathrm{l},2,x}+{a}_{\mathrm{b}\mathrm{a}\mathrm{s}\mathrm{e},x}\\ {a}_{\mathrm{g}\mathrm{o}\mathrm{a}\mathrm{l},2,y}^{\mathrm{a}\mathrm{f}\mathrm{c}}={\beta }_{2}-{a}_{\mathrm{b}\mathrm{a}\mathrm{s}\mathrm{e},y}\\ {a}_{\mathrm{g}\mathrm{o}\mathrm{a}\mathrm{l},1,y}^{\mathrm{a}\mathrm{f}\mathrm{c}}={\beta }_{2}-{a}_{2,y}-{a}_{\mathrm{g}\mathrm{o}\mathrm{a}\mathrm{l},2,y}+{a}_{\mathrm{b}\mathrm{a}\mathrm{s}\mathrm{e},y}\end{array}\right.$

由此 AFC 的输出可以表示为

(5)${a}_{\mathrm{A}\mathrm{F}\mathrm{C}}=\mathrm{ }[{a}_{\mathrm{g}\mathrm{o}\mathrm{a}\mathrm{l},1,x}^{\mathrm{a}\mathrm{f}\mathrm{c}},{a}_{\mathrm{g}\mathrm{o}\mathrm{a}\mathrm{l},1,y}^{\mathrm{a}\mathrm{f}\mathrm{c}},{a}_{\mathrm{g}\mathrm{o}\mathrm{a}\mathrm{l},2,x}^{\mathrm{a}\mathrm{f}\mathrm{c}},{a}_{\mathrm{g}\mathrm{o}\mathrm{a}\mathrm{l},2,y}^{\mathrm{a}\mathrm{f}\mathrm{c}}{]}^{\mathrm{T}}$

式中:a_base,(_x_,_y₎为被动段在x轴和y轴方向的姿态角度;${a}_{\mathrm{g}\mathrm{o}\mathrm{a}\mathrm{l},1,x}^{\mathrm{a}\mathrm{f}\mathrm{c}}$、${a}_{\mathrm{g}\mathrm{o}\mathrm{a}\mathrm{l},1,y}^{\mathrm{a}\mathrm{f}\mathrm{c}}$、${a}_{\mathrm{g}\mathrm{o}\mathrm{a}\mathrm{l},2,x}^{\mathrm{a}\mathrm{f}\mathrm{c}}$,、${a}_{\mathrm{g}\mathrm{o}\mathrm{a}\mathrm{l},2,y}^{\mathrm{a}\mathrm{f}\mathrm{c}}$分别为第一、二段主动段在x轴和y轴方向设定的期望角度。

2.2 强化学习控制器

强化学习控制器使用DDPG^[12]实现,旨在建模传统控制器中难以建模的控制目标。DRL的状态空间被设计为包括比角度偏差更精细的特征,包括当前角度、距离和当前腔道的半径R_orif,DRL的状态空间s表达式为

(6)$s=\mathrm{ }[{\alpha }_{\mathrm{1,2}},{\beta }_{\mathrm{1,2}},{a}_{(\mathrm{1,2},\mathrm{b}\mathrm{a}\mathrm{s}\mathrm{e}),(x,y)},d,{R}_{\mathrm{o}\mathrm{r}\mathrm{i}\mathrm{f}},{a}_{\mathrm{g}\mathrm{o}\mathrm{a}\mathrm{l},\left(\mathrm{1,2}\right),(x,y)}^{\mathrm{a}\mathrm{f}c}{]}^{\mathrm{T}}$

式(6)中:d为连续体机器人远端与引导线段间的距离;α_1,2和β_1,2分别为第一、二段主动段对应引导线的旋转角和扭转角。DDPG的状态空间同时还包括了AFC的输出,以使强化学习算法更好理解环境。

动作空间a∈A:a∈R⁴包括两个主动段的期望姿态角度${a}_{\mathrm{g}\mathrm{o}\mathrm{a}\mathrm{l},\left(\mathrm{1,2}\right),(x,y)}^{\mathrm{r}\mathrm{l}}$,共 4 个参数。强化学习控制器的输出为

(7)${a}_{\mathrm{R}\mathrm{L}}=\mathrm{ }[{a}_{\mathrm{g}\mathrm{o}\mathrm{a}\mathrm{l},1,x}^{\mathrm{r}\mathrm{l}},{a}_{\mathrm{g}\mathrm{o}\mathrm{a}\mathrm{l},1,y}^{\mathrm{r}\mathrm{l}},{a}_{\mathrm{g}\mathrm{o}\mathrm{a}\mathrm{l},2,x}^{\mathrm{r}\mathrm{l}},{a}_{\mathrm{g}\mathrm{o}\mathrm{a}\mathrm{l},2,y}^{\mathrm{r}\mathrm{l}}{]}^{\mathrm{T}}$

2.3 残差策略框架

在自主介入任务中,连续体机器人的总体奖励r_res可以表示为

(8)r_res=r_RL+r_AFC

式(8)中:r_AFC为使用 AFC 能够实现优化的目标;r_RL为使用DRL能够更好学习的部分目标。AFC能引导连续体机器人以最小化姿态误差的方式完成递送过程,仅能作为单一目标的控制器。而DDPG能够建模其他控制目标的误差。以AFC为基础,引导DDPG 算法的训练过程,就形成了ResDDPG算法。如图4所示,算法的整体策略输出为

(9)a_res=a_RL+a_AFC

在残差策略中,经验样本池存储了交互产生的状态-动作-奖励对。其中DDPG产生的a_RL被作为动作存储,而a_AFC被作为状态空间的一部分存储,以用于强化学习算法的训练。

经验样本池中的样本经采样回放后,评论家网络的更新遵循确定性贝尔曼方程,即

(10)${Q}^{\pi }({s}_{t},{a}_{RL}^{t})={E}_{{s}_{\mathrm{t}+1}~E}\left[r\right({s}_{t},{a}_{RL}^{t})+\gamma {Q}^{\pi }({s}_{t+1},{\pi }_{{s}_{t+1}}\left)\right]$

式(10)中:Q 为状态价值函数;π为给定策略;r为奖励函数;γ为折扣系数。因此更新评论家网络的损失函数L为

(11)$L\left(\omega \right)={E}_{\pi }\text{'}\left\{\mathrm{ }\right[Q({s}_{t},{a}_{RL}^{t})-{\mathrm{y}}_{\mathrm{t}}{]}^{2}\}$

式(11)中:ω为评论家网络参数,优化目标y_t为

(12)$ y_{t}=r_{\mathrm{RL}}+\gamma Q\left[s_{t+1}, \pi_{\Phi_{t+1}}\left(s_{t+1}\right)\right] $

经过训练的评论家网络被用于指导策略网络的训练。策略网络的更新遵循确定性策略梯度定理,即

(13)$ \nabla_{\Phi} J(\Phi)=E_{s \sim p_{\pi}}\left[\nabla_{a_{\mathrm{RL}}} Q^{\pi}\left(\boldsymbol{s}, a_{\mathrm{RL}}\right) \nabla_{\Phi} \pi_{\Phi}(\boldsymbol{s})\right] $

式(13)中:J为策略梯度定理的目标函数;Φ为网络参数。在更新了在线网络之后,采用滑动平均方式更新目标评论家和策略网络,得

(14)$\left\{\begin{array}{l}\omega \text{'}=\tau \omega +(1-\tau )\omega \text{'}\\ {\varphi }^{\text{'}}=\tau \varphi +(1-\tau )\varphi \text{'}\end{array}\right.$

式(14)中:τ 为滑动平均系数;ϕ 为策略网络参数。

3 实验与结果

收起

3.1 实验设置

在一段典型的人体支气管腔道仿真环境中进行训练和实验,以验证所提出腔道内自主规划算法的性能。所建立的支气管腔道的路径从气管入口开始,到左上叶前节段支气管终止,包括气管、左主支气管、左上叶支气管和左上叶前段支气管。直径分别为 18、16、8和 5 mm。该路径的总体弯曲角度接近180°,由于其较大的曲率和较小的直径,这段路径被外科医生认为是最难递送的位置之一。在仿真环境中进行的实验验证了算法到达叶支气管和段支气管等位置的能力。

将ResDDPG与当前最先进的连续体机器人运动规划算法进行了比较,同时测试了ResDDPG的两个组成部件的性能。进行对比的算法如下。

(1)ResDDPG算法。

(2)原始DDPG算法。

(3)文献[9]中的轨迹跟踪算法。

(4)文献[10]中的交叉熵快速搜索随机树(cross-entropy RRT, CE-RRT)算法。

此外,还比较了两种初始引导策略,即AFC控制器和随机初始策略的性能差异。

3.2 训练结果

图6显示了算法训练过程中奖励曲线的变化情况。在样本采集阶段,ResDDPG使用AFC和随机动作的混合输出与环境交互,而DDPG使用单纯的随机策略与环境交互。此时两智能体的得分都较低,而由于ResDDPG的动作建模了连续体机器人姿态误差,因此其得分高于DDPG。在250回合后,两种算法的奖励值开始上升,且 ResDDPG分数高于原始 DDPG。

在600回合后,ResDDPG 算法收敛到最大值,并在奖励最大值附近作小幅震荡。而DDPG算法在约1 400回合训练后收敛。可以看出,ResDDPG的收敛速度比原有DDPG快60%左右。这体现了在强化学习算法训练过程中采用传统控制器引导策略搜索产生的显著加速效果。

从图7可以看出,在训练过程中,与DDPG相比,ResDDPG能够更频繁且更早地到达直径为5 mm 的段支气管。这凸显了残差策略引导带来的训练效果的提高。

3.3 自主规划方法验证

在具有随机I_SF参数的环境中测试了上述方法的性能。图8和图9展示了连续体在支气管内的运动过程和远端轨迹。可以看出,所提出的方法能够控制连续体机器人跟随路径曲率变化,运动到目标位置处。

表1显示了测试过程中智能体达到目标1(左上叶支气管,直径为7 mm)和目标2(左上叶前段支气管,直径为5 mm)的成功率。4种方法均能以较大概率到达直径较大、曲率较小的目标1处的概率较高,其中ResDDPG最高。当进入直径更加细小的目标2时,只有ResDDPG的成功率超过90%,而对比方法的成功率均有较大下降。

图10 显示了连续体机器人远端与支气管之间碰撞的累积次数。碰撞的测量是通过将远端与引导线之间的距离与远端所在支气管的直径进行比较来完成的。可以看出,ResDDPG产生的碰撞比其他方法少得多,并且仅在进入叶支气管后发生接触。由于较浅位置处的支气管直径较大,因此经过训练的方法很少在此产生碰撞。

图11显示了以连续体机器人远端距引导线距离表示的位置误差随时间变化的情况。可以看出,ResDDPG在整个过程中的误差值均较低,表现出较好的跟踪引导线运动的能力。与ResDDPG相比,原有DDPG和轨迹跟踪方法表现出稍高的位置误差,在到达终点时与支气管引导线的偏差明显更大。CE-RRT方法产生的位置误差较大。

图12显示了运动过程中角度误差绝对值的总体情况。姿态误差使用曲率角θ表示。可以看出,仅依靠角度偏差作为控制标准的AFC表现出最小的整体角度误差。然而,其整体控制性能不如其他方法。除AFC之外,ResDDPG的整体角度误差最小,且AFC的姿态误差变化情况与ResDDPG相似,表明ResDDPG学习到了与AFC相近的姿态调整策略。

与ResDDPG相比,轨迹跟踪方法通过跟踪路径上不断变化的轨迹点来控制连续体机器人向目标位置的移动^[9]。这种跟踪确保了机器人远端的高位置精度。然而,这种方法在运动过程中不考虑整体姿势,导致在整个运动过程中产生了较大的姿态误差。

CE-RRT使用交叉熵方法来优化随机参数间隔,从而提高路径质量^[10]。然而,用随机参数生成的动作往往是不稳定且频繁振荡的,导致连续体机器人在狭窄的支气管中发生许多碰撞和接触。作为全局规划算法,RRT 每次只能搜索一条路径,当路径参数改变时,就必须重新规划,这也限制了其应用。

与原有DDPG相比,ResDDPG将传统控制器与确定性策略梯度相结合。利用初始引导策略为DRL提供高质量初始样本,加速最优策略的搜索。实验结果表明,采用残差引导策略可以提高DRL的动作质量,从而提高了过程指标和到达能力。

3.4 姿态反馈控制器性能分析

图13和图14比较了两种初始引导策略(即姿态反馈控制器和随机初始策略)的性能。可以看出,AFC可以产生更好的动作,促进算法快速收敛到最优策略。在生成动作的质量方面,AFC输出动作引起的碰撞和位置误差远小于随机策略产生的碰撞和位置误差。因此在图6中,当两种算法处于样本采集阶段时,由姿态反馈控制器产生的策略所获得的分数远高于随机策略的分数。由于随机策略产生的优秀动作较少,因此智能体找到最优动作的速度也降低了,收敛速度也相应变慢。

4 结论

收起

提出一种基于残差策略引导的深度强化学习算法,以规划连续体机器人经自然腔道自主介入的运动过程。实验结果表明,自主规划方法可以连续无碰撞地规划在具有不同曲率的腔道中的运动过程。与现有策略相比,所提出的策略在收敛速度、到达能力和过程指标方面都有显著提高。在未来的工作中,将研究动态环境中连续体机器人的规划方法,以满足现实世界中的机器人控制需求。

基金

收起

北京市杰出青年科学基金(JQ21016)

参考文献

收起

文献

收起

参考文献引证文献

排序方式：

[1]

梅栋, 赵鑫, 唐刚强, 等. 软体机器人建模与控制技术研究进展[J]. 机器人, 2024, 46(2): 234-256.

Mei

Dong

, Zhao

Xin

, Tang

Gangqiang

, et al. A review of soft robot modeling and control[J]. Robot, 2024, 46(2): 234-256.

[2]

Runciman

, Darzi

, Mylonas

. Soft robotics in minimally invasive surgery[J]. Soft Robotics, 2019, 6(4): 423-443.

[3]

Bian

G B

, Wang

, Li

, et al. Design and Nonlinear error compensation of a multi-segment soft continuum robot for pulmonary intervention[J]. IEEE Transactions on Medical Robotics and Bionics, 2023, 5(4): 832-842.

[4]

张振国, 毛建旭, 谭浩然, 等. 重大装备制造多机器人任务分配与运动规划技术研究综述[J]. 自动化学报, 2024, 50(1): 21-41.

Zhang

Zhenguo

, Mao

Jianxu

, Tan

Haoran

, et al. A review of task allocation and motion plan-ning for multi-robot in major equipment manuf-acturing[J]. Acta Automatica Sinica, 2024, 50(1): 21-41.

[5]

肖瑶, 王强, 金仲平, 等. 基于改进A*算法的燃气微泄漏四足巡检机器人路径规划[J]. 科学技术与工程, 2024, 24(13): 5421-5426.

Xiao

Yao

, Wang

Qiang

, Jin

Zhongping

, et al. Path planning of gas micro-leakage quadruped inspection robot based on improved A* algorithm[J]. Science Technology and Engineering, 2024, 24(13): 5421-5426.

[6]

Hawks

, Frazelle

, Green

K E

, et al. Motion planning for a continuum robotic mobile lamp: defining and navigating the configuration space[C]//. 2019IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS) Macau: IEEE, 2019: 2559-2566.

[7]

Mbakop

, Tagne

, Drakunov

S V

, et al. Parametric pH curves model based kinematic control of the shape of mobile soft manipulators in unstructured environment[J]. IEEE Transactions on Industrial Electronics, 2022, 69(10): 10292-10300.

[8]

龙琴, 袁森, 李魏魏. 基于快速平稳幂次趋近律 AGV 滑模轨迹跟踪控制研究[J]. 科学技术与工程, 2024, 24(8): 3276-3283.

Long

Qin

, Yuan

Sen

, Li

Weiwei

. AGV sliding mode trajectory tracking control based on fast stationary power reaching law[J]. Science Technology and Engineering, 2024, 24(8): 3276-3283.

[9]

, Sun

, Zhang

, et al. Data-driven navigation of ferromagnetic soft continuum robots based on machine learning[J]. Advanced Intelligent Systems, 2023, 5(2): 202200167.

[10]

Chen

, Yan

, Qiu

, et al. A cross-entropy motion planning framework for hybrid continuum robots[J]. IEEE Robotics and Automation Letters, 2023, 8(12): 8200-8207.

[11]

Mnih

, Kavukcuoglu

, Silver

, et al. Playing atari with deep reinforcement learning[J]. ArXiv Preprint ArXiv, 2013: 1312.5602.

[12]

Lillicrap

T P

, Hunt

J J

, Pritzel

, et al. Continuous control with deep reinforcement learning[C]// 4th International Conference on Learning Representations. San Juan: Ithaca, 2016: 1-14.

[13]

周治国, 余思雨, 于家宝, 等. 面向无人艇的T-DQN 智能避障算法研究[J]. 自动化学报, 2023, 49(8): 1645-1655.

Zhou

Zhiguo

, Yu

Siyu

, Yu

Jiabao

, et al. Research on T-DQN intelligent obstacle avoidance algorithm of unmanned surface vehicle[J]. Acta Automatica Sinica, 2023, 49(8): 1645-1655.

[14]

Segato

, Sestini

, Castellano

, et al. GA3C reinforcement learning for surgical steerable catheter path planning[C]// 2020 IEEE International Conference on Robotics and Automation (ICRA). Paris: IEEE, 2020: 2429-2435.

[15]

Chi

, Dagnino

, Kwok

, et al. Collaborative robot-assisted endovascular catheterization with generative adversarial imitation learning[C]// 2020 IEEE International Conference on Robotics and Automation. Paris: IEEE, 2020: 2414-2420.

[16]

, Li

, Xu

, et al. RL-TEE: autonomous probe guidance for transesophageal echocardiography based on attention-augmented deep reinforcement learning[J]. IEEE Transactions on Automation Science and Engineering, 2024, 21(2): 1526-1538.

[17]

Wohlke

, Schmitt

, Hoof

. Hierarchies of planning and reinforcement learning for robot navigation[C]// 2021 IEEE International Conference on Robotics and Automation (ICRA). Xi'an: IEEE, 2021: 10682-10688.

[18]

Johannink

, Bahl

, Nair

, et al. Residual reinforcement learning for robot control[C]// 2019 International Conference on Robotics and Automation (ICRA). Montreal: IEEE, 2019: 6023-6029.

[19]

Webster

, Jones

. Design and kinematic modeling of constant curvature continuum robots: a review[J]. The International Journal of Robotics Research, 2010, 29(13): 1661-1683.

2025年第25卷第17期

PDF下载

241

103

引用本文

BibTeX

文章信息

doi: 10.12404/j.issn.1671-1815.2404338

接收时间：2024-06-11
首发时间：2025-12-15
出版时间：2025-06-18

补充材料

相关文章

文章信息

作者

出版历史

收稿日期：2024-06-11

基金

北京市杰出青年科学基金(JQ21016)

作者信息

¹ 北京信息科技大学自动化学院, 北京 100192

² 中国科学院自动化研究所, 北京 100190

通讯作者:

*马睿宸(1993—),男,汉族,陕西西安人,博士,助理研究员。研究方向:手术机器人。E-mail:maruichen2016@ia.ac.cn。

参考文献

分享链接

https://castjournals.cast.org.cn/joweb/kxjsygc/CN/10.12404/j.issn.1671-1815.2404338

分享至

全文二维码

扫描看全文

引用本文

BibTeX

本文的引用情况

2种不同金属材料的力学参数

科 Family	属数 Number of genus	种数 Number of species	占总种数比例 Percentage of total species (%)	属 Genus	种数 Number of species	占总种数比例 Percentage of total species (%)
鹅膏菌科Amanitaceae	2	11	5.26	鹅膏菌属 Amanita	10	4.78
小菇科 Mycenaceae	2	12	5.74	丝盖伞属 Inocybe	5	2.39
多孔菌科 Polyporaceae	8	14	6.70	蜡蘑属 Laccaria	5	2.39
红菇科 Russulaceae	3	23	11.00	小皮伞属 Marasmius	6	2.87
				小菇属 Mycena	11	5.26
				光柄菇属 Pluteus	5	2.39
				红菇属 Russula	17	8.13
				栓菌属 Trametes	5	2.39

关闭全屏

BibTeX
EndNote
RefWorks
TxT

智能体	测试次数	成功次数		成功率/%
智能体	测试次数	目标1	目标2	目标1	目标2
ResDDPG	2 000	1 956	1 809	97.80	90.45
DDPG	2 000	1 931	1 646	96.55	82.30
轨迹跟踪 ^[9]	2 000	1 722	1 473	86.10	73.65
CE-RRT ^[10]	2 000	1 279	1 137	63.95	56.85