精华内容
下载资源
问答
  • 研制了一种基于行为模式的复合运动方式四足智能机器人,...阐述了机器人的机械结构和参数、硬件控制体系和基本的传感系统、两个层次三种类型的行为模式以及各行为之间的关系和参数。通过仿真和实验验证了机器人的性能。
  • 掌握手动操作机器人运动的三种模式。 使用“增量”模式来控制机器人的运动。 熟练使用手动操纵的快捷方式。 掌握ABB 机器人转数计数器更新操作。
  • 接上继续学习,手动操纵机器人共有三种模式:单轴运动,线性运动和重定位运动。 1.单轴运动:一般的,ABB机器人是由六个伺服电机分别驱动机器人的六个关节轴,每次手动操纵一个关节轴的运动,称之为单轴运动。点击...

    接上继续学习,手动操纵机器人共有三种模式:单轴运动,线性运动和重定位运动。

    1.单轴运动:一般的,ABB机器人是由六个伺服电机分别驱动机器人的六个关节轴,每次手动操纵一个关节轴的运动,称之为单轴运动。点击控制器-->示教器-->虚拟示教器

     

    打开虚拟控制面板,将钥匙开关打到手动限速模式:

    在示教器主界面中选择手动操纵

    选择动作模式,默认的为1-3轴

    点进去之后可以看到下面有四个选项,分别为1-3轴,4-6轴,线性,重定位,选择4-6轴即可操纵4-6轴,我们在示教器右下角也可以看得到,线性和重定位接下来会学习

    点击示教器中的使能按钮Enable,在状态栏中可以看到电机开启(由guide stop-->motors on

    操纵杆的操纵幅度和机器人运动是相关的,操纵幅度越大,机器人运动越快,反之则越慢。

    2.线性运动

    机器人的线性运动是指安装在机器人第六周法兰盘上工具的TCP在空间中做线性运动。TCP是指工具中心点Tool Center Point的简称,机器人只有一个默认的工具中心点,它位于安装法兰盘的中心

    3.重定位运动

    机器人的重定位运动是指机器人第六轴法兰盘上的工具TCP点在空间绕着坐标轴旋转的运动,也可以理解为机器人绕着工具点TCP点做姿态调整的运动。

    方法:(1)点击示教器ABB,在主界面中选择手动操纵

    (2)单击动作模式点进去选择重定位然后确定

    (3)选择工具坐标和参考的坐标系

    (4)点击虚拟示教器使能按钮Enable,在状态栏中确认电机开启状态,右下角显示轴XYZ的操纵杆方向,黄箭头代表正方向

     

    展开全文
  • 个典型的期望运动模式(行进,偏航和偏航偏航)下,通过计算和实验研究了由两个仿生起伏鳍推动的水下机器人的水动力行为。 此外,通过在相同运动学参数集下的CFD和实验结果之间的比较,揭示并讨论了仿生波动...
  • 针对机器人执行任务时自由空间及障碍物不同,提出了自动、半自动及手动三种控制模式,并建立了“手爪导向球”、“路径点导向向导”、“同步影像向导”多种适应性虚拟向导,辅助操作者引导手爪运动,从而提高了系统...
  • 虚拟结构[2]是集中式系统控制策略的一个示例,其中中央单元控制着系统中所有机器人的运动。 基于行为的策略[3]用于分散系统。 每个机器人都有一个内部有限状态机。 fsm中的状态对应于不同的电机模式。 在运行期间,...
  • 波浪状鱼类的推进力主要是通过使鳍状鳍起伏来实现的,它们擅长于低速操纵或稳定。 本文提出并提出了一二维近似计算模型,该... 它也为仿生波动机器人的三维(3D)流体动力学和相应的控制方法奠定了有意义的基础。
  • 机器人康复可以取代治疗师体能训练,允许更加强烈重复动作并以合理成本提供治疗,通过测量力和运动模式定量评估运动恢复水平。 传统康复治疗是非常劳动密集,特别是对于步态康复,通常需要个以上治疗...
  • 管道检查机器人是用于检查管道,为管道提供实时解决方案以及清洁管道(由于流体流动而形成的水垢或沉积物)的机器... 该机器人的运动学模型在SolidWorks中建模,并开发了原型。 机器人的性能可以通过刺激和实验来验证。
  • 众为兴机器人视觉通讯

    千次阅读 2018-10-27 16:02:03
    **很多工艺场合机器人需要与视觉通讯,通过接收视觉发送数据进行相应的运动来成工艺需求。众为兴 ADT-RC400 控制器可应用于类视觉应用场合:静态视觉、动态视觉和动态跟随视觉。前提是在机器人工程目录下添加...

    视觉通讯

    • 总纲

    **很多工艺场合机器人需要与视觉通讯,通过接收视觉发送的数据进行相应的运动来成工艺需求。众为兴 ADT-RC400 控制器可应用于三类视觉应用场合:静态视觉、动态视觉和动态跟随视觉。前提是在机器人工程目录下添加视觉,然后打开视觉配置界面来配置视觉所需的一些参数。

    视觉库

    **在众为兴机器人中调用视觉库。

    在这里插入图片描述
    **每种应用场合都需配置网络基本参数:包括相机像素、网络模式 触发方式、堵塞方式、网络接收格式。
    在这里插入图片描述

    网络模式:包括 UDP、TCP_Client、TCP_Server 三种。

    1.UDP 通讯协议:须配置视觉的 IP 和端口(注:视觉的 IP 须与 RC400 控制器 IP:192.168.0.123 在同一个网段;RC400 控制器的端口号为 110);通讯台界面可监控到视觉发送的数据。

    2. TCP_Client 通讯协议:指的是控制器作为客户端,视觉作为服务器;此处也须配置视觉的 IP 和端口号(注:视觉的 IP 须与 RC400 控制器 IP:192.168.0.123 在同一个网段;RC400 控制器的端口号为 110);通讯台界面不能监控到视觉发送的数据。

    3. TCP_Server 通讯协议:指的是控制器作为服务器,视觉作为客户端;此处配置的也是视觉的 IP 和端口号(注:视觉的 IP 须与 RC400 控制器 IP(192.168.0.123)在同一个网段, 端口号 Port 可直接配置成 -1 ;RC400 控制器的端口号为 110);通讯台界面可以监控到视觉发送的视觉。

    触发方式:IO触发,网络触发…等几种 这里介绍两种。

    1. IO内触发:需根据电气接线端口配置相应的 输出端口号

    2. 网络 触发(软触发):需配置网络触发的字符串格式(根据视觉要接收的字符串进行配置)。

    网路接收格式:视觉发送的数据格式,包括四种;

    1. 没有起始位和结束位:XX,YY,CC;
    2. 有起始位,没有结束位:NO,XX,YY,CC;
    3. 没有起始位,有结束位:XX,YY,CC,STA;
    4. 有起始位和结束位:NO,XX,YY,CC,STA;

    其中:NO 代表起始位;STA 代表 结束位; ;XX/YY/CC 分 分觉 别代表视觉 X/Y/C 轴坐标;

    堵塞方式:网络接收数据分阻塞式(block)和非阻塞(unblock)两种。一般情况下,若是多任务则采用非阻塞;若是单一任务,则采用阻塞模式。

    • 阻塞式:发送触发信号后,程序会在阻塞时间内一直停留在数据接收函数那一行,AR 程序会继续执行直到接收视觉发送过来的数据;若堵塞时间设置为 0,程序会死等停留在数据接收函数那一行直到接收到视觉发送的数据。
    • 非阻塞方式:发送触发信号后,不管有没有接收到视觉发送来的数据,AR程序也继续执行后面的程序。

    以TCP_Client 通讯协议为例,机器人作为客户端口,视觉作为服务端口。以下是一个机器人作为通讯客户端口的AR程序。

    local pos={x=0,y=0,z=0,c=0,h=0}
    CloseNet(CameraNet)
    Delay(100)
    print ("关闭TCP网络")
    if  OpenNet(CameraNet)==0  then 	
    	print("创建TCP网络,正在连接...")	
    	repeat	
    	Delay(100)
    until ConnectNet(CameraNet)==0
    print("已连接TCP网络")
    end	
    local n,data=CCDrecv("CAM0")  		--动态抓取接收相机CAM0发送的网络数据
    	if data then                        --如果接收数据不为空,则进行for循环	
    		for i=1,n do	
    			if data[i][1]~=0 or data[i][2]~=0 then 
    				print(data[i][1],data[i][2],data[i][3],data[i][4],data[i][5])
    				--如果接收的视觉数据X,Y不为0,则数据有效
    				global.pos.x=data[i].x  --data[i][1]赋值给pos.x
    				global.pos.y=data[i].y  --data[i][2]赋值给pos.y
                  global.pos.c=data[i].c  --data[i][3]赋值给pos.c
    				global.pos.z=data[i].N1  --data[i][4]赋值给pos.z
    				global.pos.n=data[i].N2	--data[i][5]赋值给pos.n
    				global.CCDdata_OK=true
    			end
    		end	
    	end
    end
    

    然后将转换坐标放到cpu1 里使用就可以了
    over

    展开全文
  • 针对移动机器人检测与跟踪系统世界模型,从智能控制与模式识别方法和传统控制理论相结合思想出发,提出一多层次、多阶段智能控制模型结构。此结构仿人思维模式把复杂任务系统分解为感知、执行、决策个层次...
  • 介绍了基于智能型全站仪的手持移动设备程序的开发环境与方法,研究了基于测量机器人的垂直度和圆轴度运动检测系统,该测量系统提供全跟踪、半跟踪和全手动三种测量模式。利用该系统进行测量可以对运动设备进行全自动化...
  • 二维运动估计

    2019-01-15 10:28:51
    摄象机运动—物体静止是另一类非常重要动态场景分析,包括基于运动的场景分析、理解,运动分析等,主要用于移动机器人视觉导航、目标自动锁定与识别等.在动态场景分析中,摄象机运动—物体运动是最一般情况,也是...
  • 通过自适应调整学习因子构造MPSO-BP神经网络分类器,以多种传感信息组成特征向量样本集训练神经网络分类器,用于识别人体下肢在平地行走、上楼梯和起坐三种典型运动模式步态相位。实验结果表明,MPSO-BP神经...
  • 为此, 首先采用点模式匹配方法建立相邻图像之间的特征匹配关系, 根据立体视觉算法得到匹配点对的三维对应关系; 然后, 计算摄像机的相对运动参数, 并采用光束平差分段优化算法对其进行优化. 所提出的双目视觉里程计...
  • 设计了三种特征点组合模式,并将其映射为五个控制命令(即,左转,右转,前进,后退和停止),以在室内环境中驱动移动机器人。 实验结果验证了我们提出方法可行性和有效性。该方法可以为老年人和因四肢截肢和...
  • BrazoRobotico-源码

    2021-05-17 18:40:03
    所开发电路举例说明了工业机器人手臂工作,该机器人手臂具有两工作模式:编程器和执行。 通过使用Java技术开发应用程序,可以按执行步骤顺序对建议机械臂进行控制和编程。 机械手臂具有四个运动自由度,...
  • 在本文中,我们提出了一基于维卷积和卷积长短期记忆(LSTM)网络模式手势识别方法。 该方法首先通过维卷积神经网络学习手势短时空特征,然后基于提取短时空特征,通过卷积LSTM网络学习长时空特征。 ...

    基于三维卷积神经网络和卷积LSTM的多模式手势识别

    摘要

    手势识别旨在识别有意义的人体运动,并且在智能人机/机器人交互中是至关重要的。 在本文中,我们提出了一种基于三维卷积和卷积长短期记忆(LSTM)网络的多模式手势识别方法。 该方法首先通过三维卷积神经网络学习手势的短时空特征,然后基于提取的短时空特征,通过卷积LSTM网络学习长时空特征。 此外,多模式数据之间的微调进行了评估,我们发现当没有预训练模型时,它可以被认为是一种防止过拟合的可选技巧。 我们对于所提出的方法在isoGD和SKIG数据集上进行验证。 结果表明,我们提出的方法可以获得最先进的识别精度(IsoGD验证集为51.02%,SKIG为98.89%)。

    关键字:三维卷积神经网络;卷积LSTM;多模式;手势识别

    介绍

    手势作为一种非言语身体语言,在人类日常生活中扮演着非常重要的角色。 毫无疑问,它将在计算机视觉应用中具有重要意义,如人机交互[44],手语识别和虚拟现实。 手势识别旨在识别和理解人体的有意义的运动[5]。 有效的手势识别仍然是一个非常具有挑战性的问题[6],部分原因是文化差异,各种观察环境,噪声,图像中手指相对较小的尺寸,词汇外动作等。

    在传统的手势识别中,主要使用手工特征和常规机器学习方法,例如, 隐马尔可夫模型,粒子滤波,有限状态机和连接模型[5]。由于上述具有挑战性的因素,手工制作的特征不能完全满足实际手势识别系统的要求。 随着深度学习理论的迅速发展[10],数据驱动方法在图像分类[13],图像分割[15],物体检测[16],场景识别[18],人脸识别[19] ],人类行为识别[20]和人类手势识别[21]。

    与基于图像的应用程序不同,例如 图像分类和场景标记,手势识别通常基于视频或骨架序列。 只有一小部分手势可以从一张静态图像中识别出来。 因此,时间信息在手势识别过程中起着关键作用。 背景可能是场景识别或动作识别的有效提示。 不幸的是,复杂的背景会给手势识别带来更多挑战,因为手势更多地集中在手和手臂的运动上。 与整个场景相比,手和手臂的尺寸相对较小,因此手势的有效空间特征可能会在背景中被压倒。 因此,时间信息比视频分类更能区分手势识别[20]。 同时学习时空特征将为手势识别提供更多信息。

    [22]中的双流卷积网络分别从RGB和叠加的光流图像中提取空间和时间特征。长期回归卷积网络(LRCN)[23]首先从每帧中学习空间特征,然后使用递归神经网络(RNN)基于空间特征序列学习时间特征。 VideoLSTM [24]使用卷积LSTM网络从先前提取的二维空间特征中学习时空特征。这三种代表性的方法分别或不同阶段地学习时空特征。在考虑各种背景的情况下,从视频同时学习时空特征对于手势识别将更加有效。例如,三维ConvNets [36]利用三维卷积神经网络(3-D CNN)直接学习时空特征。尽管如此,LSTM / RNN更适合于学习长期的时间信息。因此,针对长期依赖的应用,利用3D CNN学习短时空特征,通过RNN/LSTM学习长时空特征将会更加合理。完全连接的特征通常被用作LSTM [25]的输入,但是将空间相关性信息保持在LSTM过程中可以学习更多信息性的时空特征。所以,我们提出的方法中使用了卷积LSTM [26]。

    本文提出了一种基于3D CNN和卷积LSTM的多模态手势识别方法,如图1所示。首先,利用3-D CNN从输入视频中提取短时空特征。 然后利用卷积LSTM进一步学习长时空特征。 最后,空间金字塔池(SPP)[40]被用来规范最终分类的时空特征。 基于RGB和深度模态的网络分别被训练并且它们的预测被融合以获得最终的预测结果

    这篇文章主要贡献如下:
    1)针对孤立的手势识别,最早提出基于3D CNN和卷积LSTM的方法
    2)对多模式数据之间的微调进行评估,并将其视为可选技巧,以防止在没有预先训练的模在时出现过拟合
    3)IsoGD和SKIG数据集中展现较好的性能

    本文的其余部分组织如下:第II部分回顾了手势识别的相关工作。 第三部分给出了该方法的细节。 第四部分介绍了实验和讨论。 最后,第五节给出了结论和未来的工作。

    相关工作

    在本节将会从两个方面对手势识别的相关工作做综述:基于手工提取特征的方法和基于神经网络的方法。

    基于人工提取特征的方法

    针对手势识别,很多人工提取特征的方法已经被提出。 Priyal和Bora [43]将手与前臂区域分开,通过手的几何形状对手势旋转进行归一化,并基于归一化的二元轮廓的Krawtchouk矩特征对手势进行分类。 Konecny和Hagara [27]使用动态时间扭曲(DTW)方法来识别基于定向梯度直方图(HOG)和光流(HOF)直方图的手势。 Wu等人[28]从RGB和深度序列中提取扩展运动历史图像(Extended-MHI),并使用最大相关系数来识别手势。 Lui [29]将手势视频描述为Grassmann流形上的点,并采用最小二乘回归方法进行手势识别。 Wan等人[30]首先提出3-D增强运动SIFT(3-D EMoSIFT)和3-D稀疏运动SIFT(3-D SMoSIFT)从RGB-D图像中提取时空特征,然后将3-D EMoSIFT和3-D SMoSIFT在视觉词语袋(BoVW)模型下进行评估。最近,提出了稀疏关键点(MFSK)[31]从RGB-D中提取时空特征,。基于这些手工特征,线性判别分析(LDA),线性支持向量机(线性SVM),主成分分析(PCA),最近邻(NN)分类器,DTW,朴素贝叶斯模型等被用来进行手势识别[ 31]。

    但是,手工功能不能同时考虑所有因素。 在2016年ChaLearn LAP大规模隔离手势识别挑战中,基于最先进的手工提取特征的方法失败[1]。 与此同时,基于神经网络的方法已经在大规模和具有挑战性的手势数据集上表现出了显着的性能[1],[32]。

    基于神经网络的方法

    最近,深度神经网络(DNN)被引入计算机视觉应用领域。基于卷积神经网络(CNN)和RNN的方法已经已经在人类手势识别/行为识别中占了统治地位[6], [32],[33]。 基于神经网络的手势识别方法的关键在于学习时空特征。 最明显的方法是连续学习空间和时间特征。Pigou等人[34]探索了五种视频中手势识别的深层架构,并表明了这一点LRCN风格的网络不是手势识别的最佳选择。他们还证明,双向递归和时间卷积可以显着提高帧明显的手势识别。另一个明显的方法是将2-D CNN扩展到3-D CNN [35]。基于C3D [36]的网络展示了2016年ChaLearn LAP大规模孤立手势识别挑战的最新性能表现[7],[12],[32]。 Li等人[12]分别将三维卷积(C3D)模型应用到RGB和深度数据上。朱等人[7]将金字塔形输入和金字塔融合策略嵌入C3D模型中进行手势识别。 Molchanov等人[25]提出循环三维卷积神经网络,整合了3D CNN和RNN进行手势识别。此外,基于双流的网络在人类行为识别方面取得了显着的成绩[20]。Duan等人 在[33]中将卷积双流共识投票网络和深度显着性ConvNet相结合来进行手势识别。他们的方法在Chalearn IsoGD和RGBD-HuDaAct上获得了最先进的性能数据集。此外,将视频转换为2-D图像也是一种很流行的方式,这可以最先进的基于图像的卷积神经网络构架用于基于视频的应用。 Wang等人[4]构建动态深度图像,动态深度正常图像和动态深度运动正常图像,然后在这些图像上对VGG-16网络[37]进行微调以进行手势识别。(这里的动态深度图和动态深度正常图不知道咋翻译。总感觉有点不对劲)

    通常,CNN+LSTM [23]或3D CNN+RNN [25]网络使用完全连接的LSTM(FC-LSTM)。 FCLSTM在输入到状态和状态输入转换中使用全连接,所以空间相关信息不被编码。 Gavrila [38]提出了VideoLSTM,它直接在二维空间特征上执行LSTM,但是VGG-16的二维卷积特征不考虑到短期时间信息。 由于复杂背景下手的尺寸相对较小,缺乏时间信息可能会导致手的有效特征不能很好地提取。 因此,同时学习时空特征是手势识别的更好选择。 基于C3D的网络[7],[12],[36]可以同时学习时空特征,但LSTM / RNN更适合于长期的相关应用。 因此,卷积LSTM更适合学习长时空特征。

    所提出的方法

    如图1和2所示。 如图1和图2所示,所提出的深层架构由输入预处理,三维CNN,卷积LSTM,空间金字塔池和多模态融合五部分组成。

    输入预处理

    一般来说,手势包含三个时间重叠的阶段:准备,核心和撤回[38]。 不同的人可能以不同的速度执行手势。 这两个因素导致手势序列可能具有不同的长度。 然而,几乎所有的手势识别神经网络都要求输入具有相同的大小。 因此,输入的长度标准化是必要的。

    一种方法是将每个手势序列分成具有固定长度的剪辑,但是一个剪辑不能表示整个手势。 另一种方法是将每个手势序列下采样到固定长度L中。第二种方法在所提出的方法中使用。 同时,采用时间抖动策略的均匀采样来增强数据集。 具体来说,给定一个具有S个帧的手势序列,采样过程可以描述为:

    Idxi=SL(i+jit/2)(1)Idxi=SL∗(i+jit/2)(1)

    其中Idxi是第i个采样帧的索引,jit是从-1和1之间的均匀分布采样的随机值。时间抖动可以增加数据集而不干扰每个采样帧的时序序列手势。 采样结果可以表示为

    US=(idx1,idx2,idx3.....idxL)US=(idx1,idx2,idx3.....idxL)

    3D CNN

    C3D [36]是一种用于人体动作识别的代表性三维卷积神经网络。所提出的深层架构中的3-D CNN组件是参照C3D模型设计的,如图3所示。Batch normalization [39]也用于加速深度网络训练。Batch normalization 使我们能够使用更高的学习速率,并且对初始化不太在意。在实验中这项研究还表明,使用Batch normalization时,训练将会有显着的加速。每个Conv3D层的内核大小为3×3×3,每个Conv3D层的步长和填充均为1×1×1的大小。四个Conv3D层的滤波器计数分别为64,128,256,256 。每个Conv3D图层(除conv3a外)后面都有一个Batch normalization和一个ReLU图层。 conv2之前的第一个汇聚层的内核大小为1×2×2,步长为1×2×2。这意味着在第一个Conv3D层上只执行空间汇聚。第二个池化层的内核大小为2×2×2,步长为2×2×2。这意味着时空池化在第二个Conv3D层上执行。这两个汇聚层使得3-D CNN组件的输出大小分别在空间大小和时间长度上缩小比例4和2。这意味着,如我们前面所述,三维CNN组件只能学习短时空特征。

    Convolutional LSTM

    传统的全连接方不需要考虑空间相关性。然而,卷积LSTM(convlstm)同时具有输入状态和状态转换的卷积结构,能够将时空观戏很好的建模[ 26 ]。
    形式上,ConvLSTM的输入X1,X2...XtX1,X2...Xt,神经元状态C1,C2,C3....CtC1,C2,C3....Ct和隐藏层状态H1,H2,H3....HtH1,H2,H3....Ht都是三维张量,并且最后两维是空间维度。并且规定oo为矩阵乘积,所以ConvLSTM可以表示为:

    it=σ(WxiXt+WhiHt1+bi)(3)it=σ(Wxi∗Xt+Whi∗Ht−1+bi)(3)

    ft=σ(WxfXt+WhfHt1+bf)(4)ft=σ(Wxf∗Xt+Whf∗Ht−1+bf)(4)

    ot=σ(WxoXt+WhoHt1+bo)(5)ot=σ(Wxo∗Xt+Who∗Ht−1+bo)(5)

    Ct=ftoCt1+itotanh(WxcXt+WhcHt1+bc)(6)Ct=ftoCt−1+itotanh(Wxc∗Xt+Whc∗Ht−1+bc)(6)

    ht=Ottanh(Ct)(7)ht=Ot∗tanh(Ct)(7)

    其中σ是sigmod函数,Wx〜和Wh〜是二维卷积核。

    如图2所示,在所提出的算法中部署了两级ConvLSTM。 高级ConvLSTM层的最终输出被当做每个手势的最终长期时空特征。 因此,最终时空特征的时间长度将为1.卷积核大小为3×3,步长为1×1。两级ConvLSTM层的卷积滤波器计数分别为256和384。 在我们实现的ConvLSTM的卷积过程中执行’Same-Padding”,因此ConvLSTM不同阶段的时空特征具有相同的空间大小。 具体而言,ConvLSTM的输出具有与所提出的深层架构中的3-D CNN的输出相同的空间大小。

    Spatial Pyramid Pooling(空间金字塔池化)

    由于3-D CNN仅在空间域上以小的4的比例缩小图像,并且ConvLSTM组件不改变特征图的空间大小,所以最终的长时空特征图具有相对高的空间大小(例如, 由于3-D CNN的输入大小为112×112,因此在我们的实现中为28×28)。 空间金字塔池[40]插入ConvLSTM和全连接(FC)层以降低维度; 这样最终的FC层可以拥有更少的参数。 空间金字塔池化作为Bag-of-Words模型的扩展,是计算机视觉中最成功的方法之一。 它可以汇集多层次的特征,并可以从任意大小的图像生成表示。

    如图4所示,在所提出的深层架构中,对每个特征地图执行四级空间金字塔池化。 ConvLSTM的最终长时空特征地图的空间尺寸为28×28 =784,SPP层后各特征地图的尺寸为49 +16+4 +1=70.除了维数降低之外,SPP提取的多尺度特征也可以在一定程度上提高识别精度。

    Multimodal Fusion(多模式融合)

    多模态融合一般可以分为两类:早期多模态融合和晚期多模态融合[14]。 早期多模态融合综合了多模式网络输入前的数据。 这种方法可能存在问题,因为由于它们可能未经调整且不具有一致的特征,某些多模式数据不能直接融合。 晚期多模式融合在网络晚期整合了多模态数据。 这种方法可以分别根据数据的特征来训练不同的网络。 在提出中方法,采用后期多模态融合,并通过平均值融合不同网络的预测得到最终的预测分数。

    Experiment(实验)

    在本节中,所提出的方法将在两个公共数据集上进行系统评估:ChaLearn LAP 的IsoGD[1]和Shefield Kinect手势数据集[2中进行。 首先简要介绍这两个数据集。 然后,将详细描述培训流程。 最后,评估结果将分别报告

    数据集介绍

    略过,论文比较清楚

    训练

    提出的网络2是基于Tensorflow和Tensorlayer平台实现的。 没有预先训练的模型与提出的深层架构兼容,因此网络从零开始进行培训。 Batch normalization使训练过程变得更加简单快捷。 因此,使用更高的学习率并且需要更少的时间。 我们首先从零开始对IsoGD数据集进行网络训练。初始学习率设置为0.1,并且每15,000次迭代降至1/10。 重量衰减初始化为0.004,并在40,000次迭代后减小至0.00004。 对于IsoGD的培训,最多需要60,000次迭代。然后,基于IsoGD的预训练模型,网络针对SKIG进行了微调。 SKIG的初始学习率为0.01,每5000次迭代降至1/10。 在整个微调过程中,重量衰减设置为0.00004。 SKIG上的微调最多需要10,000次迭代。

    对于IsoGD和SKIG,批量大小为13,每个剪辑的时间长度为32帧,每个图像的裁剪大小为112.一个NVIDIA TITAN X GPU用于训练每个网络。 使用第III-A部分所述的具有时间抖动的均匀采样进行训练。 只有统一的采样才能用于测试,以保持测试的准确性。 基于RGB和深度模态的网络分别进行训练

    由于在我们的训练中没有使用其他数据集的预训练模型,因此在实验中评估了IsoGD的跨模态微调策略。 我们基于预先训练的深度模式模型对基于RGB的神经网络进行微调,反之亦然。 在对IsoGD进行训练时,使用几种不同的训练策略来评估所提出的方法:

    策略1:在3-D CNN组件的顶部添加一个额外的3-D池层(2×2×2核和2×2×2步),以评估影响 ConvLSTM的空间大小。 在这种情况下,最终时空特征地图的空间大小是14×14,因此仅利用3级空间金字塔池(即,分箱的数量分别是1,4,16)

    策略2:分别在IsoGD上从头开始基于RGB和深度图像进行训练。

    策略3:基于针对IsoGD的深度模式的预先训练的模型微调基于RGB的神经网络,反之亦然。

    Discussion(讨论)

    一般来说,当对象可供性[42]不涉及手势时,背景对手势识别的信息量较小。 在这种情况下,复杂的背景会对有效的手势识别带来负面影响。 因此,学习时空特征同时成为有效手势识别方法的关键。 三维卷积神经网络针对时空特征提取进行了很好的设计,而LSTM网络更适合于可变长度时间信息融合。 因此,3-D CNN和卷积LSTM的集成可能是用于鲁棒手势识别的优秀框架。

    对预先训练的模型进行微调是防止相对较小数据集过度拟合的一项重要技能,对预先训练的模型进行微调的本质是涉及更多的训练数据。 手势的多模态数据被捕获不同的方式,从不同的角度表现不同的手势特征。 因此,多模态也可以被看作是一种特殊的数据增强方法。 跨模态微调也可以被认为是防止过度拟合的另一种实用技巧。

    根据IsoGD的识别结果,对于所提出的方法,某些类型的手势很难识别。 1)所提出的方法不会将手的区域与整个场景分开,并且随机下采样策略在输入的长度标准化之后会丢失一些有效的快速和微小运动的运动信息,因此手部快速和微小运动的手势难以识别。 2)当大多数帧仅包含无意义的静态手势时,均匀下采样不能保留所有关键运动信息,因此这种手势也难以识别。 3)在实验中不能很好地识别具有可怕照明的手势序列。 4)非常类似的手势也很难区分。如果可以同时学习全局和局部特征,则多尺度特征可以提高手势的快速和微小移动的识别准确性。根据运动的有效性进行下采样或标准化可以是为手势识别保留有用的运动信息的可选技能。动态递归神经网络可能是学习有效的时空特征的更好选择,所述手势具有各种长度和随机执行时间和速度。

    结论

    在本文中,我们提出了一种基于三维卷积神经网络和卷积长短期记忆(LSTM)网络的多模式手势识别方法。评估结果表明,同时学习时空特征比连续或单独学习手势识别的空间和时间特征更合适。时空特征对于复杂的手势背景更加健壮。三维卷积神经网络是学习短时空特征的好选择,而卷积LSTM网络是长时空学习的较好选择。将来,我们将尝试通过用卷积网络替换所提出的深层架构的空间金字塔池层来学习每个手势的一个时空特征地图所表示的动态图像。手势总是有各种各样的长度,所以动态递归神经网络可用于我们未来作品中的连续手势识别。

    参考文献

    空间金字塔池化

    展开全文
  • Vorbis: Ogg Vorbis是一完全开放,非专有,免版税通用压缩音频格式。 minimp3:公共域,无尘室实现MP3解码器,只有头文件。 Verovio:快速、轻量级音乐符号雕刻库。 Wav2Letter++:公共域,完全用...
  • 24 基于蚁群算法的三维路径规划算法(史峰) 三维路径规划算法是机器人智能控制领域中的热点问题,是指机器人在三维地图中自动规划一条从 出发点到目标点满足指标最优的路径。相对于二维路径规划算法来说,三维路径...
  • 剑指offer典型面试题

    2019-01-08 16:33:41
     1.2 面试的三种形式  1.2.1 电话面试  1.2.2 共享桌面远程面试  1.2.3 现场面试  1.3 面试的三个环节  1.3.1 行为面试环节  应聘者的项目经验  应聘者掌握的技能  回答"为什么跳槽"  1.3.2 技术面试环节 ...
  • 电子设计.doc

    2019-05-28 11:58:28
    0329、基于电位计实现自行车机器人的拟人智能控制 0330、基于锁相频率合成器的电压控制LC振荡器 0331、基于无线传输技术的多路温度数据采集系统设计 0332、基于准浮栅技术的超低压运放及滤波器设计 0333、简单实用的...
  • 三种方法检测变位词Anagram 构建堆 二分查找 二叉查找树 二叉树 冒泡排序 英语单词拼写检查算法 几个小动态规划问题 Hash及常见操作 插入排序 归并排序 解析树ParseTree 队列 快排 基数排序 一些递归算法 选择排序...
  • ORB-SLAM2的三个线程是什么 ORB-SLAM2的定位如何实现 如何理解ORB-SLAM2的图优化 结构光、TOF、双目视觉原理 直接法、半直接法、特征点法区别与联系 Apollo的感知模块原理 Apollo的2D和3D跟踪 ...
  • xonsh:一基于 python 跨平台,面向 unix shell 语言和命令提示符。 下载器 用来进行下载库. s3cmd:一个用来管理 Amazon S3 和 CloudFront 命令行工具。 s4cmd:超级 S3 命令行工具,性能更加...

空空如也

空空如也

1 2
收藏数 37
精华内容 14
关键字:

机器人的三种运动模式