西班牙手语口译深度学习技术gydF4y2Ba

摘要gydF4y2Ba

世界上大约5%的人口患有听力障碍。它的主要障碍之一是与他人沟通，因为这可能导致他们的社会排斥和沮丧。为了克服这一问题，本文提出了一种解释西班牙手语字母表的系统，使交流在这些情况下成为可能，当需要签署专有名词，如名称，街道，或商标。为此，首先，我们生成了由组成西班牙字母表的30个字母组成的图像数据集。然后，考虑到有静态字母和动态字母，对两种不同类型的神经网络进行了测试和比较:卷积神经网络(CNNs)和循环神经网络(RNNs)。对实验结果的比较分析强调了符号解释中空间维度相对于时间维度的重要性。因此，CNNs的准确率要高得多，其最大值为96.42%。gydF4y2Ba

1.简介gydF4y2Ba

根据世界卫生组织(世卫组织)[gydF4y2Ba1gydF4y2Ba］．虽然残疾有几种类型，但所有这些人在融入社会时都会遇到社会和经济障碍。当它导致沟通障碍时，这一点尤其重要，因为这就是失聪人群的情况(约占世界人口的5% [gydF4y2Ba2gydF4y2Ba])。gydF4y2Ba

为了克服这个问题，各种各样的助听器已经被开发出来。然而，这些设备的使用取决于人们听力损失的程度。因此，这些助听器对重听和聋人社区来说是不够的，因此需要其他的交流方式。在这个意义上，有许多选择，如手语、唇读和使用文本;它们的使用将决定它们的交流形式。尽管如此，当孩子们沉浸在手语社区时，他们学会手语就像听到孩子们学会口语一样容易[gydF4y2Ba3.gydF4y2Ba，它也可能导致社会孤立，因为很少有人懂这种语言。此外，它不是一种国际语言，这进一步复杂化了交流的过程。gydF4y2Ba

在这方面，可以在文献中找到一些努力。这是第一次尝试不用语言来识别手语gydF4y2BadataglovesgydF4y2Ba是由Starner和Pentland提出的gydF4y2Ba4gydF4y2Ba］．为此，通过使用用户的肤色处理单色图像，从而提取用户的手的形状、方向和轨迹。这些数据被输入到隐马尔可夫模型(HMM)中进行签名词识别。在他们的实验中，使用了美国手语(ASL)的一部分。经审议的措词特别如下:gydF4y2Ba(我)gydF4y2Ba代词:I, you, he we, you(复数)，and theygydF4y2Ba(2)gydF4y2Ba动词:想要，喜欢，失去，不想要，不喜欢，爱，打包，打，借给gydF4y2Ba(3)gydF4y2Ba名词:盒子、汽车、书、桌子、纸、裤子、自行车、瓶子、罐子、手表、雨伞、外套、铅笔、鞋子、食物、杂志、鱼、老鼠、药丸和碗gydF4y2Ba(iv)gydF4y2Ba形容词:红色，棕色，黑色，灰色和黄色gydF4y2Ba

因此，以10帧/秒的速度，使用478个句子以及上下文附加信息对系统进行训练和测试，训练准确率为87.9%，测试准确率为84必威2490.7%。为了改进他们的结果，一些特征，如手面积，第一个特征向量长轴的长度，和变化gydF4y2BaxgydF4y2Ba- - -gydF4y2BaygydF4y2Ba-手的位置，增加了帮助解决模糊时，用户的手交叉。在这种情况下，训练和测试中的准确率分别提高了94.1%和91.9%，而在不使用语法上下文的情况下，最好的结果分别是81%和74.5%。gydF4y2Ba

沿着这条路线，Zaki和Shaheen [gydF4y2Ba5gydF4y2Ba展示了另一个美国手语识别器。在这种情况下，第一步是通过肤色阈值的方法进行手检测和跟踪。然后，利用主成分分析(PCA)作为手构型和方向的描述符。最后由HMM负责符号分类。该方法的准确率为89.1%gydF4y2BaRWTH-BOSTON-50gydF4y2Ba数据集(gydF4y2Ba6gydF4y2Ba，它由三个人签名的50个美国字组成。gydF4y2Ba

另一个例子是Cooper等人的研究[gydF4y2Ba7gydF4y2Ba，其中亚单元提取与HMM相结合，得到德国符号分类。他们的实验结果表明，在40个符号的测试集上，准确率为85.1%。gydF4y2Ba

Pigou等人更进一步。[gydF4y2Ba8gydF4y2Ba]提出的卷积神经网络(CNNs)和人工神经网络(ANN)从ChaLearn Looking at People 2014数据集识别20种意大利手势[gydF4y2Ba9gydF4y2Ba］．因此，深度图像和灰度图像分别输入到一个三层的两流CNN，其中2D卷积和max pooling操作是结合在一起的。这样就提取出了手和上身的特征。基于这些特征，由一个隐含层的整流线性单元(ReLUs)组成的神经网络提供了符号分类。该组合在验证集上的准确率为91.70%。gydF4y2Ba

当考虑整个句子时，需要时间分割和句子合成。从这个起点出发，Fang等人[gydF4y2Ba10gydF4y2Ba]提出了DeepASL，一个用于美国手语(ASL)句子翻译的多层架构。因此，利用Leap Motion提供的手指、手掌和前臂骨骼关节的3D坐标，提取ASL标志的关键特征。这些特征提供给一个分层的双向深度循环神经网络，这样它的输出通过连接时态分类(CTC)进行转换。这个系统是用以下几个词来评价的:gydF4y2Ba(我)gydF4y2Ba代词:谁，我，你，什么，我们，我的，你的，和其他gydF4y2Ba(2)gydF4y2Ba名词:时间、食物、饮料、母亲、衣服、盒子、汽车、自行车、书、鞋子、年份、男孩、教堂和家庭gydF4y2Ba(3)gydF4y2Ba动词:想要，不想要，喜欢，帮助，完成，需要，谢谢，满足，生活，可以，和来gydF4y2Ba(iv)gydF4y2Ba形容词:大的，小的，热的，冷的，蓝的，红的，光的，黑的，绿的，白的，老的，有的，没有的，好的，坏的，悲伤的，许多的，抱歉的，和少数的gydF4y2Ba(v)gydF4y2Ba副词:where, more, please, butgydF4y2Ba

将这些单词组合起来，生成100个有意义的句子，用于DeepASL评估。结果显示Top1-WER为16.1±3.7%，这意味着对于一个4词的句子，平均只有0.64个词需要替换、删除或插入。类似地，Zhang等人[gydF4y2Ba11gydF4y2Ba]提出了MyoSign，一个基于深度学习的ASL句子识别系统。作为DeepASL, MyoSign使用双向长短期记忆(LSTM)，其次是CTC。然而，肌电信号与3轴加速度计、陀螺仪和加速度一起作为MyoSign的输入，而不是图像。这些信号由卷积神经网络(CNN)处理，馈入双向LSTM。在对100多个句子的评价中，准确率达到了92.4%。沿着这条路线，文献中也提出了几种方法([gydF4y2Ba12gydF4y2Ba- - - - - -gydF4y2Ba14gydF4y2Ba])。gydF4y2Ba

尽管该领域的研究非常广泛，但每一项工作在成本、图像预处理和符号分类等方面都有其局限性，如[gydF4y2Ba15gydF4y2Ba］．在本文中，我们分析了西班牙手语的几种深度学习架构。在这个意义上，考虑了两种不同的方法:空间维度和时空分析。此外，由于缺乏对西班牙手语的研究，我们创建了一个数据集。gydF4y2Ba

1.1.贡献gydF4y2Ba

本文的具体贡献如下:gydF4y2Ba(我)gydF4y2Ba建立我们自己的数据集，包含超过8300幅属于西班牙手语字母表的图像gydF4y2Ba(2)gydF4y2Ba训练和比较不同的cnn，以及我们自己的建筑静态西班牙语手语字母解释gydF4y2Ba(3)gydF4y2Ba训练和比较不同的递归神经网络(RNNs)，以及我们提出的西班牙语手语翻译方法gydF4y2Ba(iv)gydF4y2Ba西班牙手语口译的表现分析gydF4y2Ba

2.伦敦政治经济学院的数据集gydF4y2Ba

如上所述，手语不是一种国际语言。因此，在设计手语识别器和解释器的过程中，有必要为每一种需要学习的手语创建一个数据集，除了美国手语有一些公共数据集[gydF4y2Ba16gydF4y2Ba，gydF4y2Ba17gydF4y2Ba］．gydF4y2Ba

由于缺乏可用数据，我们不得不构建自己的数据集。为此，10个人(8个男人和2个女人)被记录在图中所示的西班牙手语字母表上gydF4y2Ba1gydF4y2Ba．如图所示，共有18个字母由一个静态手势表示，而12个字母需要动作来签名。这一事实导致考虑不同的深度学习技术来正确识别和解释每个字母。gydF4y2Ba

需要考虑的一个问题是，每个人都用他们的主动手或惯用手来表示。所以，右撇子用右手来表示，事实上，他们的主要标志区域位于右肩和胸部中心之间，不像左撇子。因此，所有的受试者都被要求在几秒钟内(10到20秒之间)先用他们的惯用手，然后用另一只手来表示所有的字母。这些录音产生了8300个手势样本。更准确地说,表gydF4y2Ba1gydF4y2Ba显示了图像数据集在西班牙字母之间的分布。gydF4y2Ba


信gydF4y2Ba	左侧的迹象gydF4y2Ba	右手签署gydF4y2Ba	总计gydF4y2Ba

一个gydF4y2Ba	227gydF4y2Ba	227gydF4y2Ba	454gydF4y2Ba
bgydF4y2Ba	222gydF4y2Ba	222gydF4y2Ba	444gydF4y2Ba
cgydF4y2Ba	192gydF4y2Ba	192gydF4y2Ba	384gydF4y2Ba
chgydF4y2Ba	136gydF4y2Ba	146gydF4y2Ba	282gydF4y2Ba
dgydF4y2Ba	59gydF4y2Ba	51gydF4y2Ba	110gydF4y2Ba
egydF4y2Ba	201gydF4y2Ba	201gydF4y2Ba	402gydF4y2Ba
fgydF4y2Ba	166gydF4y2Ba	166gydF4y2Ba	332gydF4y2Ba
ggydF4y2Ba	117gydF4y2Ba	One hundred.gydF4y2Ba	217gydF4y2Ba
hgydF4y2Ba	144gydF4y2Ba	172gydF4y2Ba	316gydF4y2Ba
我gydF4y2Ba	115gydF4y2Ba	115gydF4y2Ba	230gydF4y2Ba
jgydF4y2Ba	104gydF4y2Ba	133gydF4y2Ba	237gydF4y2Ba
kgydF4y2Ba	168gydF4y2Ba	168gydF4y2Ba	336gydF4y2Ba
lgydF4y2Ba	180gydF4y2Ba	180gydF4y2Ba	360gydF4y2Ba
噢gydF4y2Ba	139gydF4y2Ba	138gydF4y2Ba	277gydF4y2Ba
米gydF4y2Ba	173gydF4y2Ba	173gydF4y2Ba	346gydF4y2Ba
ngydF4y2Ba	90gydF4y2Ba	90gydF4y2Ba	180gydF4y2Ba
ngydF4y2Ba	61gydF4y2Ba	53gydF4y2Ba	114gydF4y2Ba
ogydF4y2Ba	175gydF4y2Ba	175gydF4y2Ba	350gydF4y2Ba
pgydF4y2Ba	122gydF4y2Ba	122gydF4y2Ba	244gydF4y2Ba
问gydF4y2Ba	184gydF4y2Ba	189gydF4y2Ba	373gydF4y2Ba
rgydF4y2Ba	152gydF4y2Ba	152gydF4y2Ba	304gydF4y2Ba
rrgydF4y2Ba	116gydF4y2Ba	109gydF4y2Ba	225gydF4y2Ba
年代gydF4y2Ba	130gydF4y2Ba	130gydF4y2Ba	260gydF4y2Ba
tgydF4y2Ba	63gydF4y2Ba	63gydF4y2Ba	126gydF4y2Ba
ugydF4y2Ba	134gydF4y2Ba	134gydF4y2Ba	268gydF4y2Ba
vgydF4y2Ba	93gydF4y2Ba	96gydF4y2Ba	189gydF4y2Ba
wgydF4y2Ba	112gydF4y2Ba	104gydF4y2Ba	216gydF4y2Ba
xgydF4y2Ba	140gydF4y2Ba	132gydF4y2Ba	272gydF4y2Ba
ygydF4y2Ba	54gydF4y2Ba	120gydF4y2Ba	174gydF4y2Ba
zgydF4y2Ba	206gydF4y2Ba	179gydF4y2Ba	385gydF4y2Ba

整个数据集是用位于软银机器人Pepper机器人头部的RGB摄像机记录的[gydF4y2Ba18gydF4y2Ba］．这款相机以每秒1帧的速度提供2560 × 1920的分辨率。然而，在我们的例子中，我们使用的是640 × 480分辨率，每秒30帧。所以,gydF4y2Ba签署者gydF4y2Ba位于机器人前面，距离机器人1.5 - 2.5米，如图gydF4y2Ba2gydF4y2Ba，这样机器人就记录了组成我们数据集的图像。gydF4y2Ba

(一)gydF4y2Ba

(b)gydF4y2Ba

虽然，我们可以在表中看到gydF4y2Ba1gydF4y2Ba，数据集的样本有一点不平衡，这对识别没有一个重要的影响。这是因为不平衡的字母(d, n， ñ和t)在空间维度上与其他字母不同，这意味着即使训练的数据更少，系统也没有问题来识别字母d。另一方面，一些字母，如a和e，比其他字母有更多的样本;这是因为这两个字母可能会混淆所以多一点样本有助于减少混淆。gydF4y2Ba

由于所设计的系统必须注意签字者的手和手臂，因此对RGB图像进行处理，提取签字者的手和手臂特征。基于这个目的，Openpose [gydF4y2Ba19gydF4y2Ba，gydF4y2Ba20.gydF4y2Ba使用了)。这个开源库通过多级卷积神经网络(CNN)实时检测单个图像上的解剖关键点。因此，它的2D关键点检测器每个人输出135个关键点:25个关键点对应人体骨骼;40个关键点代表手，70个关键点代表脸(见图)gydF4y2Ba3(一个)gydF4y2Ba)．根据签名规范，本作品使用了46个关键点，如图所示gydF4y2Ba3 (b)gydF4y2Ba．这些关键点用线条连接，并绘制在240 × 320彩色图像上，如图所示，左侧为红色，右侧为蓝色gydF4y2Ba4gydF4y2Ba．所有这些生成的240 × 320 × 3的图像组成了我们的数据集。gydF4y2Ba

(一)gydF4y2Ba

(b)gydF4y2Ba

3.手语解释gydF4y2Ba

手语识别可以被描述为一种图像分类任务，输入的图像会输出相应的含义。从这个意义上说，目前的方法基本使用神经网络技术。特别是cnn已经被证明在图像识别方面非常成功。然而，一个具有挑战性的问题是找到一种方法来区分两个字母，它们唯一的区别是移动或不移动，比如l和ll。作为一种解决方案，可以考虑rnn，因为它们被设计用于接受一系列输入，并根据时间分析和学习到的输入数据之间的有意义的关系提供输出。从这个起点出发，对两种类型的几种架构进行了分析和比较。需要注意的是，我们对这两种类型的建筑进行了比较，目的是研究空间和时间维度对手语解释的影响。gydF4y2Ba

3.1.卷积神经网络(CNN)方法gydF4y2Ba

符号解读问题可以被定义为视觉分类任务。在这种情况下，一种流行的方法是卷积神经网络(CNNs)。这种方法的灵感来自于人类的视觉皮层。其基本思想是使用多个层来执行离散卷积，同时使用激活函数和其他操作(如池化)来获得分类标记。在接下来的章节中，将介绍本文中使用的cnn。gydF4y2Ba

3.1.1.VGGgydF4y2Ba

VGG是Simonyan和Zisserman引入的深度CNN架构[gydF4y2Ba21gydF4y2Ba］．如图所示gydF4y2Ba5gydF4y2Ba，这个著名的体系结构基本上由四种类型的层组成:卷积层、最大池化层、激活层和全连接层。特别是，这种架构解决了cnn的一个重要方面:深度。因此，它使用非常小的接收野(3 × 3步幅为1(最小的大小来捕捉左/右、上/下、中心的概念))。这些小尺寸的卷积滤波器允许VGG有大量的层，从而提高了性能。虽然该模型最多支持19层，但本文采用的是16层的架构(VGG-16)。gydF4y2Ba

3.1.2.《盗梦空间》V3gydF4y2Ba

《盗梦空间》V3 (gydF4y2Ba22gydF4y2Ba是盗梦空间网络家族的第三个版本。第一个版本(盗梦空间V1)有700万个参数，并于2015年作为GoogLeNet展示。它引入了Inception模块，其中输入同时经过1 × 1、3 × 3和5 × 5卷积，以查看跨通道相关性和空间相关性。批处理规范化和其他架构改进的引入导致了第二个版本(Inception V2)。《盗梦空间》V3在卷积层中加入了额外的因数分解思想，以降低维数和过拟合问题。这一事实导致参数减少了三分之一。此外，还引入了一种有效的网格尺寸缩减方法，在保持效率的同时降低了计算成本。第四个也是最后一个版本，盗梦空间V4(也称为盗梦空间-ResNet)，增加了像ResNet自己的残留连接。gydF4y2Ba

特别地，在本文中使用了Inception V3。这个体系结构的布局如图所示gydF4y2Ba6gydF4y2Ba．gydF4y2Ba

3.1.3.XceptiongydF4y2Ba

Xception [gydF4y2Ba23gydF4y2Ba是一个受《盗梦空间》启发的神经网络。然而，与Inception不同的是，Xception是基于特征图中的跨通道相关性和空间相关性完全解耦的假设。因此，Inception模块被替换为深度可分离卷积(一个点卷积(1 × 1卷积)，然后是深度卷积(一个通道nxn空间卷积))。广义地说，Xception可以定义为深度可分离的卷积层的线性堆栈，它具有像ResNet一样的剩余连接。gydF4y2Ba

3.1.4.ResNetgydF4y2Ba

剩余网络(ResNet) [gydF4y2Ba2gydF4y2Ba，gydF4y2Ba24gydF4y2Ba是最受欢迎的图像分类深度神经网络之一。与先前增加网络深度以获得更高性能的网络相比，ResNet引入了层间身份连接的概念，产生如图所示的剩余块gydF4y2Ba7gydF4y2Ba．基本上，这些连接跳过一个或多个层以获得身份映射。考虑到这些连接既不增加额外的参数，也不增加计算复杂度，它们避免了加深时模型训练误差的增加。如前所述，一系列ResNet模型已经实现，从18层扩展到200层。gydF4y2Ba

本文采用50层ResNet。该网络可以总结为:初始卷积和最大池执行输入下采样。在此之后，将卷积层与身份连接相结合的四个阶段被执行，这样在每个阶段信道宽度是原来的两倍，而输入的大小是原来的一半。最后，一个平均池层和一个完全连接的池层提供了一个分类标记。gydF4y2Ba

3.1.5.EfficientNetgydF4y2Ba

EfficientNet [gydF4y2Ba6gydF4y2Ba]的出现是为了寻找一种新的方法来缩放CNN模型，以达到更好的精度和效率。因此，与传统的任意增加CNN深度(层数)、宽度或输入图像分辨率的做法不同，我们提出了一种复合缩放方法来均匀地缩放它们。为此，从三维空间的关系中得到一组固定的尺度系数。然后，这些系数用于将基线模型扩展到所需的大小或计算预算。gydF4y2Ba

从这个起点出发，基于如图所示的基线CNN模型，我们开发了7个模型gydF4y2Ba8gydF4y2Ba．这些模型被称为effentnet - bi，其中gydF4y2Ba我gydF4y2Ba从0(基线模型)到7，即具有更高深度、宽度和输入分辨率的模型。本文采用的是中间模型，即EfficientNetB3。gydF4y2Ba

3.1.6.我们自己的架构gydF4y2Ba

除了之前最先进的cnn，我们还提出了三种不同的架构来学习和解释手语。如图所示gydF4y2Ba9gydF4y2Ba，将几种图层(如convolution, 2D convolution, fully connected, pooling，等)组合使用如下:gydF4y2BaLSE-CNN1:该架构由6层组成。因此，对输入的224 × 224 × 3图像进行前4层卷积提取视觉特征。所有这些层使用5 × 5内核，尽管过滤器的数量变化为:前两层为20，后两层为50。然后，特征数组被扁平化并由两个完全连接的层处理，这样第一个层计数为200个单元，而第二个层使用类的总数。gydF4y2BaLSE-CNN2:这是一种更简化的架构，其中一个带有64个过滤器的2D卷积层为另一个带有32个过滤器的2D卷积层提供信息(它们的内核大小都是3 × 3)。扁平化后，采用全连通层进行分级。gydF4y2BaLSE-CNN3:在这种情况下，不仅是基于卷积运算的视觉特征提取，而且使用了池化层。特别是如图所示gydF4y2Ba9gydF4y2Ba，每个卷积层之后是一个maxpooling层，这样通过总结每一步中最活跃的视觉特征来对特征图进行下采样。此外，卷积层对应的滤波器数量在从16到256的每一步中增加一倍。再次进行展平后的全连通层进行图像分类。gydF4y2Ba

3.2.循环神经网络(RNN)方法gydF4y2Ba

递归神经网络(RNN)是一种神经网络，其输入和输出通过环路的方式进行时间连接。这一事实使它们适用于必须考虑时间和序列的任务，如手写识别或语音识别。gydF4y2Ba

长短时记忆(LSTM)网络是最著名、最强大的rnn网络之一。这些网络是由[gydF4y2Ba25gydF4y2Ba，目的是在避免梯度消失问题的同时记住信息。为此，它使用由“门”控制的细胞状态。考虑到其效率包括时间维度，lstm也被用于我们的研究。如图所示gydF4y2Ba10gydF4y2Ba，第一个被提出的体系结构(LSE-RNN1)使用一个有32个单元的LSTM层，然后是一个密集层来解释手语。相反，LSE-RNN2使用两个连续的LSTM层，每个层有32个单元，其结果输入到一个密集层。也就是说，两种RNN架构的不同之处在于使用的LSTM单元的数量。这样，两种架构都得到了一个224 × 224 × 3的图像序列作为输入。注意，这个输入图像序列的长度是可变的，因为它取决于执行的符号和签名人。特别地，在我们的例子中，这个长度在2到10个图像之间变化。gydF4y2Ba

(一)gydF4y2Ba

(b)gydF4y2Ba

(c)gydF4y2Ba

4.实验结果gydF4y2Ba

如前所述，可以区分两种类型的标志:需要运动的标志和需要静止的标志。因此，首先，在分析手语解释时只考虑空间维度，因此使用静态符号。然后，通过考虑空间和时间维度对分析进行了扩展。在这种情况下，考虑所有字母。gydF4y2Ba

4.1.第一个实验:静态标志gydF4y2Ba

第一个实验是在考虑静态标志时的性能评估。如图所示gydF4y2Ba11gydF4y2Ba西班牙手语共有18个静态标识。所以，关键问题是不同字母的手指在空间上的分布。注意，有一些字母可能会导致混淆。特别是字母f、s和t可能很难区分，因为无名指位置的差异是微妙的。gydF4y2Ba

(一)gydF4y2Ba

(b)gydF4y2Ba

考虑到所分析的架构在不同的输入尺寸下工作，所有它们都适用于224 × 224 × 3的图像尺寸。因此，第一步是将所有320 × 240数据集彩色图像的大小调整到所需的尺寸。然后，将数据分成三个子集:70%的样本用于训练，15%的样本用于训练期间的测试，剩下的15%用于性能验证。请注意，大多数用于验证的样本属于一个人，其图像既没有用于训练也没有用于测试。接下来，这几个架构是在Intel(R) Core(TM) i7-8700 CPU 3.20 GHz和GeForce RTX 2080 Ti的50个时代从头开始训练的。在验证集和测试集(训练期间使用)上获得的准确性总结在表中gydF4y2Ba2gydF4y2Ba．可以看到，除VGG-16架构外，所有的验证和测试精度都大于85%，最佳模型Efficient-NetB3的最大验证精度为96.16%(错误率为3.84%)。注意，测试结果高于验证结果，因为之前没有看到所有验证集。gydF4y2Ba


体系结构gydF4y2Ba	准确性(验证)(%)gydF4y2Ba	准确性(测试)(%)gydF4y2Ba

VGG-16gydF4y2Ba	8.51gydF4y2Ba	8.51gydF4y2Ba
《盗梦空间》V3gydF4y2Ba	93.87gydF4y2Ba	95.87gydF4y2Ba
XceptiongydF4y2Ba	90.99gydF4y2Ba	92.37gydF4y2Ba
ResNet50gydF4y2Ba	95.99gydF4y2Ba	98.37gydF4y2Ba
EfficientNetB3gydF4y2Ba	96.16gydF4y2Ba	96.75gydF4y2Ba
LSE-CNN1gydF4y2Ba	87.36gydF4y2Ba	86.61gydF4y2Ba
LSE-CNN2gydF4y2Ba	86.73gydF4y2Ba	87.86gydF4y2Ba
LSE-CNN3gydF4y2Ba	94.37gydF4y2Ba	95.74gydF4y2Ba
LSE-RNN1gydF4y2Ba	89.24gydF4y2Ba	89.61gydF4y2Ba
LSE-RNN2gydF4y2Ba	87.23gydF4y2Ba	88.86gydF4y2Ba

加粗的值对应获得的最佳结果。gydF4y2Ba

值得注意的是，在VGG-16架构的情况下，它似乎提供了随机的结果。由于需要调整的参数数量较多(即134 387 551)，因此训练时间较长。如图所示gydF4y2Ba12gydF4y2Ba， VGG-16的精度曲线波动较大。这个事实是过拟合的结果。因此，VGG-16架构无法从提供的数据中正确提取所需的信息。gydF4y2Ba

对结果的分析表明，正如预期的那样，最容易混淆的字母是s，因为它主要可以与f和t混淆，如图中最佳模型的混淆矩阵所示gydF4y2Ba13gydF4y2Ba．gydF4y2Ba

另一个需要考虑的问题是处理图像和解释符号的计算成本。对此，表gydF4y2Ba3.gydF4y2Ba以秒为单位显示每个架构的时间。虽然最好的模型提供了每帧0.04339秒的良好性能，但我们提出的体系结构LSE-RNN1获得了最佳的处理时间。然而，这种架构得到更低的精度下降到89.24%，这意味着几乎7%的损失。相反，我们提出的另一个架构，LSE-CNN3，每帧只需要0.00199秒。在这种情况下，这种架构在手语识别中也被证明是有效的，因为实现了94.37%的验证精度(只有1.79%的精度丢失)。(图gydF4y2Ba13gydF4y2Ba）gydF4y2Ba


体系结构gydF4y2Ba	每帧时间(秒)gydF4y2Ba

VGG-16gydF4y2Ba	0.06389gydF4y2Ba
《盗梦空间》V3gydF4y2Ba	0.01976gydF4y2Ba
XceptiongydF4y2Ba	0.04341gydF4y2Ba
ResNet50gydF4y2Ba	0.03587gydF4y2Ba
EfficientNetB3gydF4y2Ba	0.04339gydF4y2Ba
LSE-CNN1gydF4y2Ba	0.03187gydF4y2Ba
LSE-CNN2gydF4y2Ba	0.00675gydF4y2Ba
LSE-CNN3gydF4y2Ba	0.00199gydF4y2Ba
LSE-RNN1gydF4y2Ba	0.00043gydF4y2Ba
LSE-RNN2gydF4y2Ba	0.03758gydF4y2Ba

4.2.第二个实验:整个字母表gydF4y2Ba

一旦静态符号识别被分析，下一个实验涉及所有西班牙手语字母表。在这种情况下，有一些字母需要进行运动，这意味着必须考虑时间维度。与之前一样，数据被调整为224 × 224 × 3，分为训练、验证和测试(分别为70%、15%和15%)，并输入到不同的架构。在这种情况下，epoch的数量增加到100，目的是正确地学习时间模式。此外，为rnn体系结构建立了可变序列大小，因为每个符号需要不同数量的帧来执行。请注意，静态手势是根据签名的人、使用的手和位置的变化来分组的。实验结果如表所示gydF4y2Ba4gydF4y2Ba．与之前一样，除了VGG-16架构，所有的验证精度都在85%以上。在这种情况下，最好的模型是ResNet50，其验证精度为96.42%(错误率为3.58%)，尽管effentnetb3获得了第二好的结果(如Xception)，其验证精度为95.77%(仅损失0.65%)。LSE-CNN3算法的精度损失高达3.58%。相反，rnn的验证精度很低，没有达到87%。其主要原因在于空间维度在解读任务中占有更大的权重，因为手指的位置在不同字母之间是完全不同的。唯一的例外是四对字母，它们唯一的区别是移动:l-ll, n-ñ， r-rr和u-v。这种位移在某些样品中可能导致分类错误。尽管如此，从结果来看，cnn似乎通过学习位置位移来正确区分这对字母。此外，签名过程的一个特点是，参与者根据动作要求(或缺乏动作要求)改变起始位置。 This is not the case of the triplet f-s-t that still confuses the networks.


体系结构gydF4y2Ba	准确性(验证)(%)gydF4y2Ba	准确性(测试)(%)gydF4y2Ba

VGG-16gydF4y2Ba	5.53gydF4y2Ba	5.53gydF4y2Ba
《盗梦空间》V3gydF4y2Ba	94.79gydF4y2Ba	95.93gydF4y2Ba
XceptiongydF4y2Ba	95.77gydF4y2Ba	97.8gydF4y2Ba
ResNet50gydF4y2Ba	96.42gydF4y2Ba	97.31gydF4y2Ba
EfficientNetB3gydF4y2Ba	95.77gydF4y2Ba	96.99gydF4y2Ba
LSE-CNN1gydF4y2Ba	86.17gydF4y2Ba	85.76gydF4y2Ba
LSE-CNN2gydF4y2Ba	87.88gydF4y2Ba	87.96gydF4y2Ba
LSE-CNN3gydF4y2Ba	92.84gydF4y2Ba	93.00gydF4y2Ba
LSE-RNN1gydF4y2Ba	86.25gydF4y2Ba	86.62gydF4y2Ba
LSE-RNN2gydF4y2Ba	86.74gydF4y2Ba	86.74gydF4y2Ba

加粗的值对应获得的最佳结果。gydF4y2Ba

5.结论gydF4y2Ba

在本文中，我们提出了一个新的西班牙语符号字母表数据集，由8300多幅彩色图像组成，这些图像是通过代表人的上肢获得的。然后，我们讨论了几种方法来识别西班牙语符号字母区分两种类型的符号:那些需要移动和那些静态。这一事实意味着要对空间和时间两个维度进行分析。因此，研究了两种不同类型的架构:专注于空间维度的cnn和专注于处理时间序列的rnn。因此，本文中总共使用了10种架构，其中5种是著名的最先进的方法，而其他5种对应于我们自己的建议。gydF4y2Ba

实验结果表明，在符号解释中，空间维度的权重远远大于时间维度，rnn得到的结果最低。这主要是因为手指在动作前的位置很重要，至少在西班牙手语字母表中是这样。因此，这些结果表明，cnn在时空数据上的泛化能力，可以为自动手语识别的更广泛的研究领域做出贡献。然而，重要的是要考虑到手指位置的细微差异会使CNN接近失败，这是由三组f-s-t所揭示的。gydF4y2Ba

此外，还进行了时间分析。精度最好的模型每帧占用超过0.04秒。特别注意的是一种CNN架构方案LSE-CNN3，它只需要0.00199秒，而相对于最佳模型，它对静态符号的准确率仅降低1.79%，对整个字母表的准确率仅降低3.58%。gydF4y2Ba

作为未来的工作，我们计划扩展数据集和比较研究，以包括单词和句子，旨在完全覆盖沟通问题。此外，还将分析如何适应其他手语。gydF4y2Ba

数据可用性gydF4y2Ba

支持本研究结果的图像数据可根据要求从通讯作者处获得。gydF4y2Ba

的利益冲突gydF4y2Ba

作者声明他们没有利益冲突。gydF4y2Ba

致谢gydF4y2Ba

这项工作得到了瓦伦西亚将军的部分支持(GV/2020/051)。gydF4y2Ba

参考文献gydF4y2Ba

世界卫生组织(世卫组织)，gydF4y2Bahttps://www.who.int/gydF4y2Ba．gydF4y2Ba
C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens和Z. Wojna，“重新思考计算机视觉的初始架构”，2015，gydF4y2Bahttps://arxiv.org/abs/1512.00567v3gydF4y2Ba．gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
M. A. Schmidt，《现象学经验的层面:聋哑心理学作为美国格式塔心理学的早期例子，1928-1940》gydF4y2Ba心理学的历史gydF4y2Ba第20卷，no。4, pp. 347-364, 2017。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
T. Starner和A. Pentland，“利用隐藏的马尔科夫模型从视频中实时识别美国手语”gydF4y2Ba计算成像与视觉gydF4y2Ba，第227-243页，施普林格，Dordrecht，荷兰，1997年。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
M. M. Zaki和S. I. Shaheen，“使用基于视觉的新特征组合的手语识别，”gydF4y2Ba模式识别的字母gydF4y2Ba第32卷，no。4, pp. 572-577, 2011。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
M. Tan和Q. V. Le，“effentnet:对卷积神经网络模型缩放的重新思考”，在gydF4y2Ba第36届机器学习国际会议(ICML)论文集gydF4y2Ba2019年6月，美国加州长滩市。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
H. Cooper, E. J. Ong, N. Pugeault和R. Bowden，“使用子单元的手语识别，”gydF4y2Ba机器学习研究杂志gydF4y2Ba， vol. 13, pp. 2205-2231, 2012。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
庇古，狄尔曼，p . j。Kindermans和B. Schrauwen， "使用卷积神经网络的手语识别gydF4y2Ba计算机视觉- eccv 2014工作坊gydF4y2Ba，第572-578页，施普林格International Publishing, Cham, Switzerland, 2015。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
Chalearn看着人们@ Eccv2014, 2014，gydF4y2Bahttps://gesture.chalearn.org/2014-looking-at-people-challengegydF4y2Ba．gydF4y2Ba
B. Fang, J. Co和M. Zhang，“DeepASL:使无处不在和非侵入性的单词和句子级别的手语翻译”，在gydF4y2BaACM嵌入式网络传感器系统会议论文集(SenSys)gydF4y2Ba，第13页，代尔夫特，荷兰，2017年11月。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
在《MyoSign:在可穿戴设备上实现端到端手语识别》中，张强、王丹、赵锐和余宇gydF4y2Ba第24届智能用户界面国际会议论文集gydF4y2Ba，第650-660页，美国加州Marina del Ray, 2019年3月。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
刘涛，周伟，李慧，“长短时记忆下的手语识别”，载gydF4y2Ba2016年IEEE图像处理国际会议论文集gydF4y2Ba，第2871-2875页，菲尼克斯，AZ，美国，2016年9月。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
郭丹，周伟，李慧，王明，“基于自适应hmm的在线早-晚融合手语识别”gydF4y2Ba美国计算机学会多媒体计算、通信和应用汇刊gydF4y2Ba第14卷第1期。1, pp. 1 - 18, 2018。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
黄杰，周伟，张强，李慧，李伟，“基于视频的无时间分割的手语识别”，2018，gydF4y2Bahttps://arxiv.org/abs/1801.10111gydF4y2Ba．gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
Suharjito, R. Anderson, F. Wiryana, M. C. Ariesta和G. P. Kusuma，“聋哑人的手语识别应用系统:基于输入-过程-输出的综述”，载于gydF4y2Ba第二届国际计算机科学与计算智能会议(ICCSCI)论文集gydF4y2Ba，印尼巴厘岛，2017年10月。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
《手语MNIST》，2018，gydF4y2Bahttps://www.kaggle.com/datamunge/sign-language-mnistgydF4y2Ba．gydF4y2Ba
M. Zahedi, D. Keysers, T. Deselaers和H. Ney，“结合切线距离和图像失真模型进行基于外观的手语识别”，在gydF4y2Ba计算机科学课堂讲稿gydF4y2Ba，第3663卷，第401-408页，施普林格，维也纳，奥地利，2005年。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
软银机器人技术,gydF4y2Ba胡椒机器人gydF4y2Ba，软银机器人，日本东京，2021年，gydF4y2Bahttps://us.softbankrobotics.com/peppergydF4y2Ba．gydF4y2Ba
T. Simon, H. Joo, I. Matthews和Y. Sheikh，“使用多视图自举在单个图像中的手关键点检测”，在gydF4y2Ba2017年IEEE计算机视觉与模式识别会议论文集gydF4y2Ba， IEEE，檀香山，HI，美国，2017年7月。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
曹哲、G. Hidalgo、T. Simon、S. E. Wei和Y. Sheikh，“Openpose:使用部分亲和力场的实时多人2d姿态估计”，2018，gydF4y2Bahttps://arxiv.org/abs/1812.08008v2gydF4y2Ba．gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
K. Simonyan和A. Zisserman，“用于大规模图像识别的非常深卷积网络”，2014，gydF4y2Bahttps://arxiv.org/abs/1409.1556v6gydF4y2Ba．gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
C. Szegedy, W. Liu, Y. Jia等人，“深入卷积”，2014，gydF4y2Bahttps://arxiv.org/abs/1409.4842v1gydF4y2Ba．gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
F. Chollet，“例外:深度学习与深度可分离卷积”，2016，gydF4y2Bahttps://arxiv.org/abs/1610.02357v3gydF4y2Ba．gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
何凯，张旭，任舒，孙杰，“基于深度残差学习的图像识别”，2015，gydF4y2Bahttps://arxiv.org/abs/1512.03385v1gydF4y2Ba．gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
S. Hochreiter和J. Schmidhuber， "长期短期记忆"gydF4y2Ba神经计算gydF4y2Ba第9卷，没有。8, 1997年第1735-1780页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

计算智能与神经科学gydF4y2Ba

西班牙手语口译深度学习技术gydF4y2Ba

摘要gydF4y2Ba

1.简介gydF4y2Ba

1.1.贡献gydF4y2Ba

2.伦敦政治经济学院的数据集gydF4y2Ba

3.手语解释gydF4y2Ba

3.1.卷积神经网络(CNN)方法gydF4y2Ba

3.1.1.VGGgydF4y2Ba

3.1.2.《盗梦空间》V3gydF4y2Ba

3.1.3.XceptiongydF4y2Ba

3.1.4.ResNetgydF4y2Ba

3.1.5.EfficientNetgydF4y2Ba

3.1.6.我们自己的架构gydF4y2Ba

3.2.循环神经网络(RNN)方法gydF4y2Ba

4.实验结果gydF4y2Ba

4.1.第一个实验:静态标志gydF4y2Ba

4.2.第二个实验:整个字母表gydF4y2Ba

5.结论gydF4y2Ba

数据可用性gydF4y2Ba

的利益冲突gydF4y2Ba

致谢gydF4y2Ba

参考文献gydF4y2Ba

betway赞助

更多相关文章gydF4y2Ba

相关文章gydF4y2Ba