文献总结《Learning Spatio-Temporal Features with Two-Stream Deep 3D CNNs for Lipreading》

使用双流深度三维卷积神经网络学习唇语的时空特征

Posted by 王沛 on August 10, 2019
本文总阅读量

《Learning Spatio-Temporal Features with Two-Stream Deep 3D CNNs for Lipreading》

原文链接在这里 pdf

这是Xinshuo Weng等人于2019年发表于BMVC的一篇关于唇语识别的文献,提出了使用双流3D卷积神经网络进行唇语的时空特征提取。

1. 主要内容:

  • 使用双流输入的深度3D CNN模型进行前段提取特征;
  • 在LRW上分析评估了多种前后端模型组合的表现;
  • 在大规模图像/视频数据集上预训练后的深度3D CNN可以提高识别准确率;
  • 仅仅使用光流作为输入就可以得到与灰度图输入相媲美的结果,而双流输入可以极大地提升性能;
  • 本文提出的双流I3D前端+双向LSTM后端比当时最好的模型准确率提升了5.3%;

2. 介绍:

本文之前最好的唇语识别方法是端到端神经网络的使用,包括一个浅层的(大约3层)3D CNN+深层的2D CNN作为前端来提取视觉特征,然后使用RNN(比如双向LSTM)作为后端来进行分类。
单词级别的唇语识别是一项困难的任务,因为它的敏感性。不同的字幕有时可以产生同样的嘴唇移动(比如p和b)。这些字母很难单独通过视觉线索区分。但是,人们通过词语中邻近字母的内容解决这种问题(单词级唇语识别)。所以,对帧之间的时间信息建模是很重要的。
传统方法:研究人员用两级输入,包括从唇语区域的特征提取以及使用序列模型分类,这两个步骤是独立的。最普遍的特征提取方法是使用DCT(离散余弦变换)进行降维/维度压缩,之后再使用序列模型,如HMM(隐马尔科夫模型)对上一级提取出的特征进行时域建模,从而进行分类。如下图左。
最近最好的研究成果,使用了端到端的深度学习。和传统相似,裁剪后的唇部图像序列喂入前端网络提取特征,然后送入后端进行时域建模从而实现分类。如下图中间。不同之处在于通过loss算出的梯度可以从后端传播到前端,所以整个网络是端到端可训练的。因而学习出的特征相对于传统方法来说更适合唇语识别。现有的研究通常使用浅层3D CNN+深层2D CNN的结合作为前端,双向长短时间网络(Bi-LSTM)作为后端。
众所周知,基于图像的2D CNN特征提取并不能直接用于视频任务(比如唇语识别),使用3D CNN作为前端来学习时空特征更加合适。目前已有一些文章使用了3D CNN实现唇语识别,但大多使用了浅层3D CNN,根据作者推测,是因为深度3D CNN 由于过多的参数,很容易引起过拟合,导致表现不如浅层CNN。

net1

本文提出了第一个单词级基于深度3D CNN的唇语识别方法,如上图右。使用了22层的3D Inception Net作为前端,为了防止过拟合,使用了在ImageNet上预训练的模型膨胀为3D。根据文献《Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?》的结论,3D CNN在其他数据集微调后可以提高准确率,因此本文在Kinetics数据集上预训练。本文在前后端评估了多种组合,以灰度图和光流作为输入。

3. 创新点:

主要贡献:

  • 提出了第一个超过3层的深度3D CNN用作单词级唇语识别;
  • 证明了预训练模型对于训练深度3D CNN的重要性;
  • 展示了使用光流作为另一路输入可以大幅提升效果;
  • 提出的I3D前端+BiLSTM后端取得了最好的表现;

4. 网络结构:

总体框架

net2

如图,唇语识别的框架由4个部分组成: (a) 输入:一种图像序列,灰度或光流,或者二者结合;
(b) 前端模块:从输入提取特征;
(c) 后端末端:对时间建模,把特征汇总到一个向量;
(d) Softmax层:计算每个单词的概率;

前端模块
net3
上图是本文四种前端模块的对比。
图a:使用深度2D CNN提取特征,虽然2D CNN只能提取基于图像的信息,但是后端的RNN依然能够在某种程度上对时间信息建模。图a展示了34层ResNet,从灰度图提取特征。
图b:浅层3D CNN+深层2D CNN,先使用浅层3D CNN预处理灰度图像,然后再输入深层ResNet。众所周知3D CNN可以捕获短时动态特征,即使在后端有LSTM时依然有用。由于训练三维卷积核带来的大量参数很困难,唇语识别最优的方法只用了3层3D CNN。本文把灰度视频输入3D卷积层,核心数64/64/96,每层后面有batch normalization、ReLU、3D Maxpooling,提取出的特征再给后面的34层ResNet处理。
图c:深度3D CNN。使用I3D,22层Inception。3D Inception模块见下图:
net4

图d:我们期望深度3D CNN可以提取足够强大的特征,所以实际上可以将光流和灰度相结合,这被证明对于视频处理任务很有用。本文使用PWC-Net预先计算光流。然后两路分别输入I3D。

后端模块
A. 1D 时域卷积层: net5
最简单,只要在时间通道上使用1维卷积操作。两层1D卷积,后面接一个全连接层,将向量的长度映射为单词的数量,从而计算每个单词的原始概率。

B. 双向LSTM:
net6
RNN可以对时间信息建模,LSTM被证明在解决梯度爆炸和梯度消失方面很有用。而双向LSTM可以同时具有每个时间点前向信息和反向信息。本文使用了两层双向LSTM,隐藏状态维度512,最后输入到全连接层,计算原始概率。

两轮预训练
ImageNet上的权重预训练是很有效的,但不能直接使用,因为本文使用的是3D卷积核。本文将ImageN上预训练的模型膨胀为3D(即把2D filter上的权重重复N次以匹配时间维度)。但是这种预训练只能提取空间特征,而在大规模视频数据集上预训练可以提高效果,所以本文将模型在此在Kinetics数据集上做第二次预训练。

5. 实验设置:

数据集:LRW

预处理和数据增强:裁剪唇部区域112×112,随机镜像翻转、±5像素裁剪。对光流做同样类型数据增强以保持一致。 之后按照上一部分介绍的几种分类,分析不同组合的效果。

6. 结果:

在LRW上的实验结果:

result1

7. 总结:

本文提出了第一个单词级唇语识别方法,使用超过3层是深度3D CNN。本文在LRW上评估了不同的前端后端组合,结果表明,经过两轮预训练,深度3D CNN前端的效果超过了之前的浅层3D CNN+深层2D CNN。光流和灰度输入对模型预测都是有效的,而二者结合的双流网络可以大幅提升效果。综上,本文的双流预训练I3D+BiLSTM比之前的最优模型性能提升5.3%。