仿人机器人通常拥有类似人类躯干的外形,搭载了双臂、双足和灵巧手等部件,因而具有良好的亲和力.人们期望仿人机器人能够在一些枯燥或危险的工作替代人类,如家庭服务、柔性制造和搜索救援等,这给机器人,特别是机械臂的运动规划和控制提出了很高的要求.与工业机械臂追求效率和精度不同,仿人机械臂不仅须要准确地完成既定任务,还须要表现出拟人性,否则可能导致用户心理恐慌,甚至产生“恐怖谷”效应.而常规的运动规划方法,如基于随机采样[1]和基于人工势场[2]的方法,很难将拟人性因素考虑在内.此类规划器生成的运动可能在运动学意义上最优,但在用户看来十分怪异.模仿学习[3]为解决这一问题提供了新方案.通过观测、学习和复现人类演示的动作,该技术能使机器人快速掌握类人操作技能.但目前应用于仿人机器人的模仿学习技术尚不成熟,一个重要原因是缺乏高质量演示数据.在实际应用中,通过示教技术来教导机器人是一种稳定和快捷的演示数据生成方法.实时人类动作模仿是一种直接式机器人示教方法.借助于动作捕获系统,如惯性动捕服、骨骼点采集设备等,演示者无须接触机器人即可引导其执行各种动作.但仿人机器人和人体并非严格对应,动作模仿控制器的设计是一个难题,其必须妥善处理人和机器人在大小臂长度、自由度数量、可动范围等指标上的差异,才能使机器人在物理能力范围内尽可能相似地模仿人类的运动.这一过程也称为运动重定向[4].现有研究中的动作模仿策略可分为两类:一类是直接法,即通过逆运动学或预先定义的人体和机器人自由度之间的映射规则[5-6],将捕获的人体关节角度直接迁移到机器人;另一类是间接法,仅提供待模仿的关键特征(如指定标记点的轨迹),并交由模仿控制器主动跟踪.相比于前者,间接法不受限于单种规则,也不受限于特定机器人,因而拥有更好的拓展性,可通过阻抗控制[7]、最优控制[8]及强化学习[9]等手段实现,但是现有成果普遍存在安全性差、计算效率低及延迟高的问题,给算法在真实人机场景中的应用带来了挑战.针对上述问题,本研究提出一种基于递归神经网络(RNN)的间接式动作模仿控制算法.通过将动作模仿问题转化为腕肘双轨迹同步跟踪最优控制问题,机器人的物理能力限制可作为等式和不等式被考虑,从而确保动作模仿的安全性.此外,利用神经动力学原理设计的SWET-RNN则能够高效地对重整为二次规划(QP)形式的优化问题进行实时求解.本研究所提模仿控制算法只关注作为输入的腕点和肘点轨迹,而不关注演示的具体来源,因而能够屏蔽硬件的差异,可以与多种动捕系统相集成,具有良好的通用性.1 问题概述1.1 动作模仿框架概述动作模仿的本质是实现从人类到人形机器人的动作迁移.这一复杂过程既依赖于动捕系统等硬件设备,也依赖于高实时性和鲁棒性的机器人控制算法.对于上肢动作模仿,人体肩点、肘点和腕点是关键特征点.这是由于七自由度拟人机械臂通常也布置为“肩-肘-腕”型结构,因而在形式上具有良好的对应关系.如图1所示,在将肩点视为固定的前提下,只须确保肘点和腕点相对肩点的运动轨迹在重定向前后的比例关系(图1中分别以红色和绿色标记),就可以保证动作模仿的相似性.10.13245/j.hust.231101.F001图1人类动作模仿算法框架图1展示了间接式动作模仿的算法框架,可分为人类演示动作捕获(动捕模块)和机器人模仿运动控制(控制模块)两个部分.通过深度相机等设备获取人类演示动作流后,动捕模块首先进行人体关键点检测,以提取肘点和腕点演示轨迹.由于原始数据通常基于设备基坐标系,同时包含噪声,因此须进行滤波、缩放及坐标变换等预处理,将演示轨迹转换为机器人可跟踪的目标轨迹.作为动作模仿中最关键的部分,控制模块以这些轨迹作为输入,求解并输出关节控制指令来驱动机械臂跟随演示动作.本研究重点关注控制模块的设计与分析,该模块由基于最优控制的轨迹跟踪策略整定和策略求解两步流程实现.1.2 动作模仿控制问题定义基于上述讨论,以单侧机械臂为研究对象,本研究涉及的动作模仿控制可视为一个时变双轨迹同步跟踪控制问题.将在t时刻由动捕系统采集并经过预处理的、相对于机器人基坐标系的单侧腕部和肘部目标轨迹分别记为xwd(t)和xed(t),那么动作模仿控制旨在找到一种合适的控制律,使机械臂的实际腕部和肘部轨迹xw(t),xe(t)与目标轨迹之间的误差随着时间稳定收敛.为方便阐述,后面省略了时间戳,即以xwd,xed,xw和xe指代任意时刻的目标和实际轨迹.2 面向实时动作模仿的控制策略动作模仿控制策略的设计难点在于:机械臂须要同时跟踪两条轨迹,而这两条轨迹可能导致瞬时运动学上的冲突;与此同时,各种物理极限必须得到满足.本研究采用最优控制技术解决这一挑战.2.1 冗余机械臂运动学分析对于具有n个自由度(关节)的机械臂,其正运动学涉及从关节空间Rn到m维笛卡尔空间Rm的非线性映射f,以将关节位置向量θ映射为末端位姿x,即x=f(θ).(1)当跟踪单条轨迹时,机械臂控制器的输入是笛卡尔空间中末端执行器的位姿xd,而期望输出是使实际末端执行器到达预期位姿的关节位置θd.这一过程依赖于逆运动学求解,即式(1)的逆运算.然而,由于f的高度非线性,因此直接求解非常困难且耗时.为此,对式(1)两侧求取时间微分,即x˙=Jθ˙,(2)式中:J=∂f/∂θ∈Rm×n为机械臂的雅可比矩阵;x˙和θ˙分别为末端执行器和关节的速度向量.式(2)将运动学方程从位置级转到速度级,本质上是仿射变换,因此可简化逆运动学计算.但当机械臂存在冗余自由度,即nm时,有rank Jn,这意味着式(2)的逆解不唯一.此时,必须根据某些判据或额外的约束在可行解集中选择合理且最优的解.2.2 实时动作模仿的控制目标与约束建模如前所述,动作模仿问题的核心是对腕部目标轨迹和肘部目标轨迹的同步跟踪(后面分别简称为肘部跟踪和腕部跟踪).在如式(2)所示的速度级运动学方程基础上,两个跟踪问题可分别表述为Jθ˙=x˙wd;Jeθ˙e=x˙ed,(3)式中:θ˙e为控制机械臂肘部位姿的前k个关节所组成的速度向量,k为关节数,对于“肩-肘-腕”型冗余臂,k=3;Je为肘关节雅可比矩阵.须说明的是:本研究用腕部位姿xwd指代末端位姿,即假设所有关节角度参与腕部位姿计算.对于具有球形手腕的机械臂,这一假设是合理的.式(3)构成了动作模仿控制策略中的等式约束,确保了机械臂对目标轨迹的跟踪.在动作执行过程中,机械臂的运动受到电机性能的限制,包括关节位置极限、速度极限等,其中位置极限最为关键——关节不允许超越上限θ-或下限θ+,否则将造成严重损害.这一限制可记为θ-≤θ≤θ+;另外,受电机峰值力矩的制约,关节速度不可能无限增大,这一限制可记为θ˙-≤θ˙≤θ˙+.二者构成了动作模仿最优控制策略中的不等式约束.考虑到动作模仿的强交互性,在保证模仿精度的前提下,机械臂关节速度应尽可能低,以降低动作的攻击性.关节速度范数(即关节速度的欧式范数θ˙Tθ˙/2)是一种衡量机械臂关节空间速度大小的指标.对于冗余机械臂而言,当末端速度一定时,关节速度范数越小,表明机械臂运动越柔和.为此,本研究将最小化关节速度范数(MVN)选定为优化目标.综合以上分析,面向实时动作模仿的优化控制策略应以对腕部和肘部轨迹的同步跟踪作为主要任务,以MVN作为次要任务,同时解出的关节控制指令应符合机械臂物理能力约束.这一策略可具体转化为如下的优化问题:minθ˙ θ˙Tθ˙/2;s.t. Jθ˙=x˙wd,Jeθ˙e=x˙ed;θ-≤θ≤θ+,θ˙-≤θ˙≤θ˙+. (4)2.3 控制策略改进作为控制问题的初步描述,策略(4)存在固有缺陷:一是存在两个等式硬约束,在机械臂运动学和不等式约束的多重限制下,二者自身及相互之间可能冲突,导致求解失败;二是决策变量层级不统一,既有速度级变量θ˙,又有位置级变量θ,这给问题求解带来了困难.为此,须对原策略进行重构.2.3.1 等式约束重构对于动作模仿而言,控制的可解性比精度更加重要,否则可能导致动作中断或震颤.为此,可对硬约束进行松弛化处理以降低约束的严格度.对于腕部约束,引入松弛变量sw∈Rm,式(3)可重写为Jθ˙+sw=x˙wd.(5)当不等式约束起作用时,sw可确保原问题依然可解.另外,由于动作捕捉系统仅能提供关键点位置信息,因此式(5)中的右侧项,即预期腕部速度x˙wd无法直接获得.为此,构造下式所示的离散控制率来求取x˙wd,即x˙wd=kw(xwd-xw),(6)式中:kw为比例系数;xw为当前机械臂腕部点的位置,可由关节位置反馈配合正运动学解出.类似地,也可在关于肘部跟踪的等式约束中添加松弛变量se∈Rm来进行松弛化重构,即Jeθ˙e+se=ke(xed-xe).(7)考虑到θ˙e本质上是θ˙的一个子块,式(7)可写为JEθ˙+se=ke(xed-xe),(8)式中:JE=[Je,Om×(n-k)]∈Rm×n为扩展雅可比矩阵;O为零矩阵.2.3.2 不等式约束重构原问题期望在速度级得到解决,即决策变量应为θ˙,因此有关关节位置的不等式约束必须转换到速度级.通过检查关节当前位置和极限值之间的差异,原约束可转换为如下所示的速度级动态边界,即σ(θ--θ)≤θ˙≤σ(θ+-θ),(9)式中σ0为缩放因子,用于控制动态边界的幅值.一旦某个关节超越某侧位置极限,例如当超越正向极限θ+时,通过式(9),决策变量θ˙将被约束到θ˙≤σ(θ+-θ)≤0的范围中,于是在下一时刻求解出的速度指令将驱动关节反向旋转,使其返回安全区间,从而实现位置约束效果.综合考虑原速度约束,总的速度级不等式约束可写为ω-≤θ˙≤ω+;ωi+=min(σ(θi+-θ),θ˙i+);ωi-=max(σ(θi--θ),θ˙i-), (10)式中:i=1,2,...,n;ω+和ω-分别为经过重构的关节速度上界和下界.2.3.3 优化问题重构上述重构策略通过引入松弛变量增强了问题可解性,但不可避免导致跟踪精度降低.为解决这一问题,将松弛变量连同原MVN目标以求和形式添加到优化目标中,以期实现最小化,那么经过重构的优化问题可写为:minθ˙,sw,se (θ˙Tθ˙+swTsw+seTse)/2;s.t. Jθ˙+sw=kw(xwd-xw);JEθ˙+se=ke(xed-xe);ω-≤θ˙≤ω+. (11)在优化问题(11)中,所有变量均处在速度级,且目标函数是一个标准二次型,因此是一个QP问题,这为高效求解提供了便利.后面将问题(11)记为“腕肘同步跟踪策略(SWET)”.3 递归神经网络控制器设计与分析尽管SWET策略拥有标准QP形式,但由于变量维度高、解空间大,普通数值型QP求解器计算效率较低,因此难以适应动作模仿这一实时化应用的需要.本研究基于神经动力学原理来解决这一挑战.3.1 RNN求解器设计对于SWET问题(11),构造拉格朗日函数为ℒ=(θ˙Tθ˙+swTsw+seTse)/2+λT[kw(xwd-xw)-Jθ˙-sw]+μT[ke(xed-xe)-JEθ˙-se]+ν+T(θ˙-ω+)-ν-T(θ˙-ω-), (12)式中:λ,μ∈Rm为分别与两个等式约束相关联的拉格朗日乘子;ν+,ν-∈Rm为与双边不等式约束相关联的拉格朗日乘子,由于形式相似,二者可被合并为单个乘子ν∈Rm,即ν=ν+-ν-.根据对偶理论[10],原优化问题(11)的最优解(θ˙*,sw*,se*)及其对偶问题的最优解(λ*,μ*,ν*)须满足KKT稳定性条件,即:∂ℒ/∂θ˙=θ˙-JTλ-JETμ+ν=0;∂ℒ/∂sw=sw-λ=0;∂ℒ/∂se=se-μ=0. (13)此外,还须满足互补松弛条件,即:θ˙i=ωi+(νi0);ωi-≤θ˙i≤ωi+(νi=0);θ˙i=ωi-(νi0), (14)式中i=1,2,...,n为向量元素序号.注意到式(14)等价于如下简化形式[11],即θ˙=PΩ(θ˙+ν),(15)式中PΩ(⋅):Rn→Ω为定义在集合Ω={θ˙∈Rnω-≤θ˙≤ω+}上的投影算子,有PΩ(u)=argminγ∈Ωγ-u2.(16)从本质上来看,PΩ(⋅)为一个分段线性不等式,其元素级算子PΩ(ui)关于自变量ui的示意图如图2所示.10.13245/j.hust.231101.F002图2元素级投影算子示意图联立式(13)和(15)及原等式约束(5)和(8),可得到如下方程组:θ˙=PΩ(JTλ+JETμ);sw=λ;se=μ;Jθ˙=kw(xwd-xw)-sw;JEθ˙=ke(xed-xe)-se. (17)方程组(17)的解等价于SWET问题(11)及其对偶问题的最优解.那么,可设计一个时变递归神经网络,由如下常微分方程组描述,使其平衡点等价于方程组(17)的解,即:ϵθ¨=-θ˙+PΩ(JTλ+JETμ);ϵs˙w=-sw+λ;ϵs˙e=-se+μ;ϵλ˙=-Jθ˙+kw(xwd-xw)-sw;ϵμ˙=-JEθ˙+ke(xed-xe)-se, (18)式中ϵ0为控制RNN收敛速率的可调节参数.在实际应用中,ϵ应设置为与系统离散时间间隔处于同一数量级,以确保RNN稳定性.由于目标函数是严格凸的,解的存在性和唯一性可被保证.于是,RNN的状态变量(θ˙,sw,se,λ,μ)可随时间全局收敛到平衡点,也即原优化问题的最优解.关于这一结论的理论分析见3.2节.将所提出的用于求解SWET问题的RNN记为SWET-RNN.在结构上,SWET-RNN是一个单层递归神经网络,由状态更新方程(18)描述,包括n+4m个神经元,投影算子PΩ是作用于神经元的激活函数.当n=7,m=3时,SWET-RNN的拓扑结构如图3所示.该神经网络接收目标轨迹xwd,xw,xed和xe作为输入,并通过方程组(18)进行动态更新.最终,状态变量最优值θ˙*被输出,可用于机械臂的实时控制.在实际应用中,也可对更新方程进行离散化处理,以适应实时计算的需求.10.13245/j.hust.231101.F003图3SWET-RNN拓扑结构3.2 理论分析对所提出的SWET-RNN的收敛性和稳定性做出理论证明.首先给出如下定义和引理.定义1 单调映射[12].当多元函数F:Rn→Rn的梯度矩阵∇F满足∇F+∇FT≽0 (19)时,F是一个单调映射.引理1 当关于状态变量z∈Rn的动态系统满足下式形式时,可全局收敛到其平衡点[13],即δz˙=-z+PS(z-ρF(z)), (20)式中:δ,ρ0为系统常数;S⊆Rn为一个非空闭凸集;F:S→Rn为一个单调映射;PS(⋅)为定义在集合S上的投影算子.对于所提出的递归神经网络SWET-RNN,给出如下定理.定理1 由微分方程组(18)描述的RNN的输出收敛到SWET问题(11)的最优解.证明 微分方程组(18)可写为:ϵθ¨=-θ˙+PΩ[θ˙-(θ˙-JTλ-JETμ)];ϵs˙w=-sw+[sw-(sw-λ)];ϵs˙e=-se+[se-(se-μ)];ϵλ˙=-λ˙+{λ˙-[Jθ˙-kw(xwd-xw)+sw]};ϵμ˙=-μ˙+{μ˙-[JEθ˙-ke(xed-xe)+se]}. (21)在形式上,注意到除第一个子方程外,其余子方程中,最外层括号所包含部分等价于投影算子P∞,其上界和下界分别为+∞和-∞.鉴于投影算子的元素级作用,多个投影算子可以沿向量方向堆叠.那么,方程组(21)可合并为ϵz=-z+PΛ(z-F(z)), (22)式中:z=[θ˙T,swT,seT,λT,μT]T;Λ={(θ˙,sw,se,λ,μ)|θ˙∈Ω,sw,se,λ,μ∈Rm}为一个闭凸集;PΛ=[PΩ;P∞;P∞;P∞;P∞]为定义在Λ上经过堆叠的投影算子;F(z)为一个可微映射,有F(z)=θ˙-JTλ-JETμsw-λse-μJθ˙-kw(xwd-xw)+swJEθ˙-ke(xed-xe)+se.(23)接下来考察F(z)的单调性.求取F(z)的梯度矩阵,可得∇F=I00-JT-JET0I0-I000I0-IJI000JE0I00.(24)显然有∇F+∇FT≽0.根据定义1,F(z)是一个单调映射.由于式(22)与引理1的式(20)具有完全一致的形式,且F(z)是一个单调映射,根据引理1,关于z的动态系统(22)可全局收敛到其平衡点.另一方面,当网络收敛时有z˙=0,代入到式(21)可得:θ˙=PΩ(JTλ+JETμ);sw=λ;se=μ;Jθ˙=kw(xwd-xw)-sw;JEθ˙=ke(xed-xe)-se. (25)注意到式(25)与式(17)完全相同,这意味着所提出RNN的收敛平衡点即SWET问题的最优解.证毕.综上所述,所提出的RNN对于求解SWET问题具有理论保证的收敛性和稳定性.4 实验及结果分析4.1 实验设置真机人类动作模仿实验环境设置如图4所示.在硬件上,大型仿人服务机器人UBTECH Walker2选作实验平台.该机器人搭载的拟人机械臂具有7个自由度,属于“肩-肘-腕”型运动学结构.一台经过校准的RealSense D435 RGB-D相机以1.5 m距离放置于演示者前,与之连接的计算机配置了Nuitrack骨骼追踪套件,用以采集演示者上肢骨骼点.如图5所示,获取肘点和腕点相对于肩点的坐标后,通过如下公式缩放至适合于机械臂跟踪的尺度,即10.13245/j.hust.231101.F004图4实验环境设置xwd=τpw;xed=τpe,(26)式中:pw为Nuitrack采集的演示者腕点坐标;pe为演示者肘点坐标;τ为缩放因子,可选定为演示者臂长与机器人臂长之比,即τ=Larmrobot/Larmhuman.10.13245/j.hust.231101.F005图5Nuitrack骨骼点识别在软件上,SWET-RNN使用C++语言编写,以200 Hz的频率运行在外置计算机CPU单核上(Intel i7-4710,2.6 GHz).程序与关节控制器之间通过机器人操作系统(ROS,版本Kinetic)通信,进而实时控制机械臂运动,并接收关节状态反馈.SWET-RNN的超参数对模型收敛性和稳定性有较大的影响.本研究通过试误法选定的一组超参数近优值如表1所示.10.13245/j.hust.231101.T001表1SWET-RNN超参数设置超参数物理意义取值kw腕部跟踪比例系数50.0ke肘部跟踪比例系数50.0σ动态边界缩放系数10.0ϵSWET-RNN收敛系数0.005δSWET-RNN迭代精度0.000 1人类引导的抓取-放置(P&P)被选定为背景任务.如图4所示,Walker2机器人前的工作台上放置了塑料球(物品1)和布质玩偶(物品2)等两种常见家居物品.由于体积较小、质地光滑或柔软,当使用常规P&P算法取放此类物品时存在抓取检测失败、放置动作不自然等问题.通过人类演示来实时引导机器人完成并泛化P&P任务是一种极有潜力的方案.在实验中,由SWET-RNN控制的机器人左臂须在演示者右臂的镜向引导下依次抓取两件物品,并将其放置到收纳盒中.记录机器人左臂对演示轨迹的跟踪质量、关节运动情况及算法耗时,用于进一步评估.4.2 结果分析图6和图7分别展示了P&P任务执行过程中,机器人腕部和肘部在x,y,z轴方向上的实际轨迹同人类演示者提供的实时目标轨迹的差异.结果显示:在演示者的实时引导下,机器人左臂经过“接近物品1”(t∈[0.0,3.1) s)、“抓取物品1”(t∈[3.1,6.7) s)、“移送物品1”(t∈[6.7,10.7) s)、“放置物品1”(t∈[10.7,14.8) s)、“复位并接近物品2”(t∈[14.8,18.7) s)、“抓取物品2”(t∈[18.7,22.0) s)、“移送物品2”(t∈[22.0,24.9) s)、“放置物品2”(t∈[24.9,30.0) s)和“复位”(t∈[30.0,33.1) s)等流程后,将两个目标物品依次放入收纳盒,成功完成指定任务,总耗时33.1 s.10.13245/j.hust.231101.F006图6腕部轨迹跟踪曲线10.13245/j.hust.231101.F007图7肘部轨迹跟踪曲线注意到在“接近物品1”过程的启动阶段,机械臂的腕部和肘部迅速从初始位置对目标轨迹开展了跟随,并在约0.5 s时接近目标轨迹.此后,机器人腕部和肘部均紧密跟踪了目标轨迹,未出现明显的延迟.具体地,SWET-RNN控制器的腕部三维空间平均跟踪误差为6.5 mm;最大跟踪误差为154.3 mm,产生在启动时刻(t=0 s);若不计启动跟随阶段(t0.5 s),则最大跟踪误差仅为19.1 mm.此外,肘部三维空间平均跟踪误差为7.3 mm;最大跟踪误差为112.5 mm,同样产生在启动时刻(t=0 s);不计启动跟随阶段(t0.5 s)的最大跟踪误差仅为11.5 mm.以上结果表明:SWET-RNN控制器可实现对腕肘双轨迹的同步高精度跟踪,这为高相似度动作模仿提供了有力支持.任务执行过程中关节θ1~θ7的运动曲线如图8所示,图中虚线为各关节位置极限.显然各个关节均未超出允许范围.值得注意的是:当任务执行至约10 s和24 s时,即机器人将目标物品移送至左臂的工作空间边缘时,关节4接近下侧位置极限,但并未超出,说明所提出的动态边界构造方法能够有效处理关节位置极限,从而将关节的运动约束在机器人能力范围内.以上结果表明:SWET-RNN控制器在驱动机械臂高质量跟踪演示运动的同时,可确保其不超越自身物理能力的限制,这一特性有助于增强动作模仿这一强交互应用的安全性.10.13245/j.hust.231101.F008图8关节运动曲线针对标准二次规划问题求解,已有部分研究提出数值求解器,如OSQP[14]和qpOASES[15]等.表2对比了SWET-RNN同上述求解器在求解动作模仿问题中的计算耗时,结果表明:所提求解器的单次调用平均耗时仅0.126 ms,相比OSQP和qpOASES分别提升了57.9%和81.8%.此外,SWET-RNN的耗时标准差低于OSQP,并远低于qpOASES,表明了其在求解中的稳定性.以上结果验证了SWET-RNN的卓越计算效率,最高可支持近8 kHz的实时控制循环求解.10.13245/j.hust.231101.T002表2QP求解器单次调用耗时对比耗时对比指标SWET-RNNOSQPqpOASES平均值0.1260.2990.692标准差0.0290.0510.128ms5 结语本研究设计了基于递归神经网络的机械臂在线控制算法SWET-RNN,用于实现仿人机器人对人类演示的上肢动作的实时高相似度模仿.通过将模仿问题转化为基于二次规划的最优控制策略SWET,可将同步轨迹跟踪和机器人自身物理限制转化为等式及不等式约束添加到策略中.所提出的RNN具有理论保证的稳定性,能够收敛至该策略的最优解.实验结果表明:SWET-RNN控制算法具有优越的腕肘双轨迹同步跟踪性能和计算性能:腕部平均跟踪误差为6.5 mm,腕部平均跟踪误差为7.3 mm,单次调用平均耗时仅0.126 ms,可满足实时动作模仿对高相似度、低延迟及高安全性的要求.该算法作为模仿学习框架的上游算法,能够为生成高质量的机器人操作技能模仿学习数据提供有力支持.后续工作将进一步探索高效、轻量化的模仿学习算法,以将人类动作特征泛化至各种机器人操作任务中.

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读