引言

地震是对人类影响最大的自然灾害之一,为最大限度地减轻震害损失,灾后第一时间掌握灾情分布,对有效开展应急救援具有重大意义(王晓青等,2015Janalipour等,2016)。调查人员到灾区实地调查的传统方式虽能真实、准确地掌握受灾情况,但需花费较长的时间,且易受道路阻塞的影响。随着遥感技术的发展,遥感在抗震救灾中发挥着越来越重要的作用。遥感具有快速、非接触、覆盖范围广的特点,可迅速获取灾区的震害影像(王晓青等,2003陈文凯等,2008)。如何从影像中快速提取建筑物震害信息是遥感应用的重要环节。建筑物震害信息提取经历了从基于像元到面向对象方法的发展历程。基于像元的方法不能充分利用纹理、形状和上下文等信息,制约了建筑物震害信息提取的精度(王岩等,2009);面向对象方法弥补了基于像元方法信息提取精度的缺点,但面向对象方法应用于建筑物震害信息提取的特征,如纹理、形状等大多需要经过人机交互确定。在过去的几十年中,许多较成功的图像语义分割系统,如boosting(Shotton等,2009)、随机森林(Shotton等,2008)、支持向量机(Fulkerson等,2009)等,能较充分地利用纹理信息(Carreira等,2011)和结构形状信息(Xuming等,2004),但也需要人工干预选择特征并设置参数,影响其分类效果和效率。董燕生等(2011)基于面向对象的方法对建筑物震害瓦砾进行提取试验,其总体精度为78.57%。吴剑等(2013)以遥感影像分类的方式进行建筑物震害提取,将地物分为植被、水体、临时安置房、损毁建筑物和其他地物等,基于像元的方法分类总体精度为76.84%,面向对象的方法分类总体精度为90.38%。文翔等(2014)用面向对象的方法对高分辨率遥感影像进行分类,以提取建筑物震害信息,其总体分类精度为73.56%。杨春(2015)运用面向对象的思想,结合随机森林分类器,对鲁甸地震震后遥感影像进行分类,提取建筑物震害信息,以像元为统计单元,其总体分类精度为85%。

随着人工神经网络技术的发展,深度卷积神经网络已广泛应用于计算机视觉领域,如图像分类(Lecun等,1998Krizhevsky等,2012Sermanet等,2013Simonyan等,2014Szegedy等,2015)、物体检测(Erhan等,2014Girshick等,2014Girshick,2015;Kaiming等,2015;Liu等,2015Ren等,2017)等。许多研究者将深度学习技术应用于遥感图像分类的研究,总体来看可分为以下几类:①基于窗口的卷积神经网络:该方法将固定大小的图斑输入神经网络,利用卷积神经网络从该图斑中提取的特征对位于图斑中心一个或几个像素进行类别预测。Mnih(2013)利用该方法从高分辨率航空影像中提取房屋和道路,并取得较理想的结果,但这种方法计算量大、速度慢,目前已较少使用。②面向对象与卷积神经网络相结合的方法:该方法先将图像进行多尺度分割,得到超像元图斑,然后利用卷积神经网络对整个超像元图斑类别进行预测,这种方法虽对分类器进行了改进,但并未克服图像多尺度分割中存在的分割效果不良的问题。金永涛等(2018)采用该方法将地物分为建筑物、农作物、林地、水体、道路、其他地物等类型,总体精度为84.40%。③基于全卷积神经网络的方法:该方法将卷积神经网络全连接层替换为卷积层,并将不同层次的特征进行融合,实现了像元级的类别预测(Long等,2015)。刘文涛等(2018)基于该方法进行了建筑物屋顶遥感提取,其测试精度达90%以上。

全卷积神经网络中使用的特征由神经网络自主学习得到,无需人工设定,因此,相对于传统方法,可在一定程度上实现快速自动分类。本文将全卷积神经网络应用于建筑物震害信息的提取,尝试解决建筑物震害遥感信息提取自动化程度不高的问题。

1 全卷积神经网络

Long等(2015)提出全卷积神经网络的概念,并将其应用于图像语义分割。图像语义分割指将像素按照图像中表达语义含义的不同进行分组或分割。目前,以全卷积神经网络和上采样为基础的端到端的训练方法是当前语义分割的主流方法,为图像语义分割开辟了一条新的道路,可通过自主学习图像自身的特征实现语义分割任务,摆脱了人工设计特征的束缚。全卷积神经网络的基本思想是将卷积神经网络最后几层的全连接层替换为卷积层,从而使得特征图中包含位置信息。为实现图像各像素的分类,首先将卷积神经网络最后一层特征图上采样至与输入图像相同的尺寸,然后用分类器进行每一像素的类别预测。全卷积神经网络主要由卷积层、池化层和上采样层组成。卷积运算的实质是一个固定大小的卷积核以某一固定步长在图像上滑动做卷积运算。卷积运算过程中卷积核的权重参数及偏置参数均由通过神经网络的训练自主学习得到。神经网络中不同层的网络用于提取不同层次的特征。池化层的作用在于缩少参数矩阵的大小,减少网络中的训练参数,主要通过固定大小的窗口以特定的步长在卷积层输出的特征图上移动,取滑动窗口内的最大值(最大池化)或平均值(平均池化)作为输出。卷积和池化操作的详细内容参见常亮等(2016)的研究。

全卷积神经网络与卷积神经网络的主要区别在于:全连接层替换为卷积层;加入上采样层;采用跳跃层(skip-layers)结构。

1.1 全连接层替换为卷积层

全连接的作用是综合利用输入图斑的整体特征,在全连接操作中,将所有二维图像的特征图拼接为一维特征作为全连接网络的输入,输出也是一维特征图。设网络共有L层,若第;ll=1,2,…L)层为全连接层,则第l层的输出可通过对输入加权求和并通过激活函数的作用得到,表达式为:

$ {x_{{k^l}}} = {f_l}(\sum\nolimits_{{k^{l - 1}} = 1}^{{K^{l - 1}}} {{x_{{k^{l - 1}}}}\; \cdot \;{h_{{k^l}}} + {b_{{k^l}}}}) $ (1)

式中fl表示第l层的激活函数;${x_{{k^{l - 1}}}}$表示第(l-1)层输出特征图的第k个特征值;${b_{{k^l}}}$表示第l层中第k个特征的偏置量;${h_{{k^l}}}$表示与第(l-1)层输出特征图中第k个特征值对应的权重系数。

由于全连接层的输入和输出为一维矩阵,因此经全连接层计算得到的特征图将失去空间信息,不利于图像语义分割的实现。全连接层还需大量的权重参数,造成网络学习与预测计算量增加,因此在图像语义分割任务中采用卷积层代替全连接层,其区别为:卷积层相当于一个卷积核,以固定大小和固定步长在输入图像(或特征图)上滑动做卷积运算,保留了特征图的空间特征,且减少了大量的权重参数。卷积操作的计算公式为:

$ {x_{{k^l}}}(i, j) = {f_l}(\sum\nolimits_{{k^{l - 1}} = 1}^{{K^{l - 1}}} {\sum\limits_{p = 0}^{{w_{f - 1}}} {\sum\limits_{q = 0}^{{h_{f - 1}}} {{x_{{k^{l - 1}}}}(i\; \cdot \;r + p, j\; \cdot \;r + q)\; \cdot {h_{{k^l}}}(p, q) + } } } {b_{{k^l}}}(i, j)) $ (2)

式中fl表示第l层的激活函数;wfhf表示卷积核的尺寸;r表示卷积核移动的步长;${x_{{k^l}}}(i, j)$表示第l层输出特征图的第k个通道在(ij)位置的特征值;${b_{{k^l}}}(i, j)$表示与第(~l1)层输出特征图对应的卷积核中第k个通道的偏置量;${h_{{k^l}}}(p, q)$表示与第(~l1)层输出特征图对应的卷积核中第k个通道的权重矩阵在$(p, q)$位置的权重值。

1.2 上采样策略

在全卷积神经网络中,卷积神经网络最后的几个全连接层被替换为卷积层,输入图像经多次卷积池化操作后输出的是一个高维的特征图。将特征图进行上采样至与输入图像相同的尺寸,进而对每个像素点进行分类,达到图像分割的目的。上采样的方法主要有双线性插值、反池化(Zeiler等,2010),在全卷积神经网络中采用的是双线性插值法,公式为(Long等,2015):

$ {y_{s, t}} = \sum\limits_{\alpha, \beta = 0}^1 {|1 - \alpha - \{ s/n\} ||1 - \beta - \{ t/n\} |{x_{\left\lfloor {s/n} \right\rfloor }}{{_ + }_{\alpha, }}_{\left\lfloor {t/n} \right\rfloor + \beta }} $ (3)

式中n为上采样因子,为大于0的整数,根据特征图的放大倍数确定;st为采样后的像素相对坐标,取值范围均为$[1, n]$$\alpha, \beta $的取值为0或1,用于确定与输出像素点距离最近四个像素的位置;{·}表示小数部分;$\left\lfloor \cdot \right\rfloor $表示整数部分;$\left| \cdot \right|$表示取绝对值;x为输入特征图的像素值;y为经上采样输出的特征图像素值。

1.3 跳跃层结构

如果仅对最后一层特征图进行上采样,虽可达到图像分割的目的,但图像语义分割的边界较模糊,不够精确。为解决此问题,Long等(2015)提出跳跃层的策略,主要思路是将经过多次卷积池化操作后得到的高层次空间分辨率较低的特征图进行上采样,将上采样得到的特征图与低层空间分辨率较高的特征图进行融合,本文的融合方式为特征图中对应元素相加求和。将卷积层conv15输出的特征图进行2倍的上采样得到2×conv15,然后将其与第4卷积层pool4输出的特征图进行融合得到Fuse_pool4_pool15,再将Fuse_pool4_pool15进行2倍上采样,并与第3卷积层pool3输出的特征图进行融合,将最终融合的特征图用于语义分割(见图 1)。融合后的特征图集既包含高层特征图的语义信息,又包含低层特征图的边界信息,因此能获得较精确的语义分割结果。


图 1 全卷积神经网络结构图(Long等,2015 Fig. 1 Structure diagram of skip-layers of fully convolutional neural network(Long等, 2015)

图 1中image为输入图像,conv1—conv15为卷积层,pool1—pool5为池化层。“n×”指后面对应的特征图经上采样操作后大小扩大到n倍。图 1中虚线箭头表示跳跃层结构,“+”表示数据的融合(Long等,2015)。

1.4 全卷积网络选择与分类数设置

Long等(2015)将在图像分类任务中表现较好的AlexNet(Krizhevsky等,2012)、GoogLeNet(Szegedy等,2015)、Vgg16 Net(Simonyan等,2014)3种卷积神经网络模型进行全卷积网络改造,并在PASCAL(Pattern Analysis, Statical Modeling and Computational Learning)网络组织的PASCALVOC数据集上进行图像语义分割试验,得出Vgg16 Net效果最佳的结论。因此本文选用Long等(2015)基于Vgg16 Net改造的全卷积神经网络进行建筑物震害信息的提取。由于本文中建筑物震害信息的提取是将遥感影像分为倒塌建筑物、未倒塌建筑物和背景,因此将网络中待分类别数目改为3。

1.5 损失函数

网络的输出层为第L层,其输出的分类数目为KL,本文中KL=3,选用softmax函数作为分类器,计算每个像元属于kL类的概率值,softmax函数表达式为:

$ {\hat m_{{K^L}}}(i, j) = \frac{{\exp ({x_{{k^{L - 1}}}}(i, j))}}{{\sum\nolimits_{{k^{L - 1}} = 1}^{{K^{L - 1}}} {\exp ({x_{{k^{L - 1}}}}(i, j))} }} $ (4)

式中${\hat m_{{K^L}}}(i, j)$表示神经网络输出分类图像在(ij)处像元属于kL类的概率值,在本文中kL=0、1、2分别代表背景、倒塌建筑物和未倒塌建筑物;${x_{{k^{L - 1}}}}(i, j)$表示第(L-1)层第k通道特征图在(ij)位置的像素值。

损失函数(loss function)用来评价模型对像元类别预测值与真实值的差异程度,当取值为非负实数时,损失函数值越小,表明模型的分类精度越高。本文采用softmax损失函数,表达式为:

$ loss = \frac{1}{A}\sum\limits_j {\sum\limits_i {\ln } } (\hat m(i, j)) $ (5)

式中$\hat m(i, j)$表示模型输出预测图像在(ij)位置的像元类别属于真值的概率,即$\hat m(i, j) = truth({\hat m_{{k^L}}}(i, j))$,其中kL=0、1、2;A表示一次迭代训练过程中输入图斑包含的像元总数。

采用随机梯度下降算法(Stochastic Gradient Descent,简称SGD)迭代训练(Bottou,2012),使loss值减小,以优化全卷积神经网络中的权重参数和偏置量参数等。

1.6 精度评价方法

图像分割中通常使用多种方法衡量算法的精度。本文选用每一类别的正确率、总体精度和Kappa系数作为评价指标。其中,第u类的正确率为:

$ P{A_u} = \frac{{{P_{u, u}}}}{{\sum\nolimits_{v = 1}^{{K^L}} {{P_{u, v}}} }} $ (6)

总体精度(Overall Accuracy)为:

$ OA = \frac{{\sum\nolimits_{u = 1}^{{K^L}} {{P_{u, u}}} }}{{\sum\nolimits_{u = 1}^{{K^L}} {\sum\nolimits_{v = 1}^{{K^L}} {{P_{u, v}}} } }} $ (7)

Kappa系数为:

$ Kappa = \frac{{N\sum\nolimits_{u = 1}^{{K^L}} {{P_{u, u}} - \sum\nolimits_{u = 1}^{{K^L}} {((\sum\nolimits_{v = 1}^{{K^L}} {{P_{u, v}}}) \times (\sum\nolimits_{v = 1}^{{K^L}} {{P_{v, u}}}))} } }}{{{N^2} - \sum\nolimits_{u = 1}^{{K^L}} {((\sum\nolimits_{v = 1}^{{K^L}} {{P_{u, v}}}) \times (\sum\nolimits_{v = 1}^{{K^L}} {{P_{v, u}}}))} }} $ (8)

式中N表示像元总数;KL表示语义分割中的类别数目,即神经网络最后一层(第L层)输出的通道数;Pu, v表示本属于类u,但被预测为类v的像素数量;Pv, u表示本属于类v,但被预测为类u的像素数量;Pu, u表示类u被正确预测的数量。

2 建筑物震害提取试验与分析
2.1 试验数据

2010年4月14日7时49分,青海省玉树藏族自治州玉树县(33.2°N, 96.6°E)发生7.1级地震, 震源深度14km,宏观震中位于玉树县结古镇隆洪达附近,极震区烈度为Ⅸ度,结古镇房屋建筑遭受严重破坏。本文以玉树县城区局部区域为研究区,试验数据基于原国家测绘局在玉树地震震后拍摄的航空遥感影像,红绿蓝三波段,空间分辨率为0.2m。将该影像切割为500×500像素的一系列图斑,从中选取427张包含倒塌建筑物和未倒塌建筑物的图像图斑,进行倒塌建筑物、未倒塌建筑物和背景3类地物类型标注,从而得到标注图斑。从427张标注的图斑中随机选取393张作为训练集,其余的34张作为测试样本集,训练集和样本集的数据均由原始图斑和对应的标签图像组成。训练样本集和测试样本集在研究区的分布和放大图像分别如图 23所示。


图 2 研究区震后遥感影像及选取的训练样本分布示意 Fig. 2 Remote sensing image and training sample distribution in the research area

图 3 震后高分遥感影像图斑及对应的真值 Fig. 3 training samples: post-earthquake high-resolution remote sensing image patch and the corresponding ground truth
2.2 试验方法

为加快模型训练速度,本文结合Long等(2015)的方法,将预训练的Vgg16Net的权重作为本文网络权重的初始化参数。通过制作的遥感数据集对网络进行训练,训练时采用梯度下降法,其中学习率参数决定了权值更新的速度,设置的太大会使结果达不到最优值,太小会使下降速度过慢,参考Long等(2015)的研究,在本试验中学习率设为10-14。另一个参数为权值衰减参数,其设置的目的是防止过拟合,本文中将其设为0.0005。考虑计算机内存的限制,本文将每次迭代训练图斑的数目定为2[1]。图 4所示为损失函数值随迭代次数的变化,图中损失函数值为参与训练样本的平均损失函数值。由图 4可知,随着迭代次数的增加,损失函数值迅速减小。结合图 4的变化趋势,本文选取迭代训练50000次得到的模型作为测试模型。


图 4 损失函数值随迭代次数变化图 Fig. 4 Variation of loss value with iteration times
2.3 试验结果与精度验证

根据实际标注样本训练得到的全卷积神经网络参数模型,对34张500×500像素的验证样本原始影像图斑的建筑物震害类别进行预测,并与人工标注的真实结果进行比较(见图 56)。图 56中红色表示倒塌建筑物,绿色表示未倒塌建筑物,黑色表示背景。


图 5 研究区遥感影像及验证样本图斑分布图 Fig. 5 Remote sensing image and test sample distribution in the research area

图 6 基于全卷积神经网络提取的建筑物震害信息结果示例图 Fig. 6 The typical result showing seismic damage of buildings extracted from RS image by FCN

以像元为统计单位,统计验证样本分类情况,利用式(6)、式(7)分别计算每一类别的精度、总体分类精度,[2]得到分类混淆矩阵,如表 1所示。由表 1可知,背景、倒塌建筑物和未倒塌建筑物的分类精度分别为89.3%、64.6%和72.2%,总体分类精度为82.3%,利用式(8)计算Kappa系数为62.3%,显示结果具有较高的一致性。

表 1 基于全卷积神经网络的建筑物震害提取结果混淆矩阵 Table 1 The obfuscation matrix of building damage extraction results based on full convolutional neural network

为验证本文所采用方法的有效性,在相同数据集的条件下,利用面向对象的遥感图像分类软件—ecognition 9.02版本进行建筑物震害提取试验。采用面向对象监督分类的思想,试验的基本流程为图像分割、样本选择、监督分类。图像分割方法采用软件自带的多尺度分割算法,监督分类算法同样采用软件自带的cart决策树算法。经反复试验比较,多尺度分割算法中的形状参数设为0.1,紧致度参数设为0.5;选用的分类特征包括亮度均值、各波段亮度标准差、形状指数、各方向的灰度共生矩阵、灰度共生矩阵标准差。最终的试验结果如表 2所示,背景、倒塌建筑物和未倒塌建筑物的分类精度分别为59.6%、84.7%和49.0%,总体分类精度为62.9%,Kappa系数为37.3%。可见其总体精度远低于本文所采用的全卷积神经网络方法。

表 2 基于cart监督分类的建筑物震害提取结果混淆矩阵 Table 2 confusion matrix of building damage extraction results based on cart supervised classification
3 讨论与结论

本文采用基于Vgg16 Net的全卷积神经网络,建立应用于建筑物震害信息提取的模型,以玉树地震玉树县城区局部区域为研究区,对研究区427个500×500像素的图斑进行建筑物倒塌、未倒塌及背景3个类型进行人工标注,随机选取393个标注样本,通过迭代分析得到应用于建筑物震害信息提取的全卷积神经网络模型,对余下34个图斑进行震害信息提取,并与传统的面向对象方法震害信息提取结果进行分类精度对比分析。

试验结果表明,本文所建立的模型对建筑物震害提取总体像素精度可达82.3%,Kappa系数为62.3%,表明该方法具有一定的建筑物震害信息提取能力;与面向对象的方法相比,虽然倒塌建筑物的提取精度较低,但由于全卷积神经网络方法能自主地学习建筑物震害信息的特征,在一定程度上减少了人为因素的干扰,提高了建筑物震害信息提取的自动化程度,对灾后迅速掌握灾情信息具有一定意义。

本文所用方法也存在一定问题,对建筑物震害信息提取的精度不够高。出现这种现象的原因包括:对建筑物震害信息的提取基于一个尺度,缺乏多尺度特征的应用;不同地物的提取精度存在较大差异,且在该样本集下倒塌建筑物的提取精度低于传统监督分类的方法,由于样本类别间数量的不平衡,背景样本数量远多于倒塌建筑物和未倒塌建筑物的样本数量,使得模型的预测能力出现差异。

基于上述问题,以后的研究方向包括:①考虑全卷积神经网络没有利用遥感影像的多尺度特征,因此可将多尺度孔洞卷积应用于遥感影像的建筑物震害信息提取中。②对模型进行优化,在训练过程中按照训练样本的数量,对样本在训练过程中赋予相应的权重,以克服样本类别间数量不平衡的矛盾。

参考文献
常亮, 邓小明, 周明全, 等, 2016. 图像理解中的卷积神经网络[J]. 自动化学报, 42(9): 1300-1312.
陈文凯, 何少林, 张景发, 等, 2008. 利用遥感技术提取震害信息方法的研究进展[J]. 西北地震学报, 30(1): 88-93.
董燕生, 潘耀忠, 方伟华, 等, 2011. 基于面向对象技术的建筑物震害识别方法研究[J]. 地震研究, 34(3): 372-377, 403. DOI:10.3969/j.issn.1000-0666.2011.03.020
金永涛, 杨秀峰, 高涛, 等, 2018. 基于面向对象与深度学习的典型地物提取[J]. 国土资源遥感, 30(1): 22-29.
刘文涛, 李世华, 覃驭楚, 2018. 基于全卷积神经网络的建筑物屋顶自动提取[J]. 地球信息科学学报, 20(11): 1562-1570. DOI:10.12082/dqxxkx.2018.180159
王晓青, 窦爱霞, 王龙, 等, 2015. 2013年四川芦山7.0级地震烈度遥感评估[J]. 地球物理学报, 58(1): 163-171.
王晓青, 魏成阶, 苗崇刚, 等, 2003. 震害遥感快速提取研究——以2003年2月24日巴楚-伽师6.8级地震为例[J]. 地学前缘, (S1): 285-291.
王岩, 王晓青, 窦爱霞, 2009. 面向对象遥感分类方法在汶川地震震害提取中的应用[J]. 地震, 29(3): 54-60.
文翔, 周斌, 阎春恒, 2014. 遥感分类方法在建筑物震害提取中的应用(以玉树地震为例)[J]. 地震地磁观测与研究, 35(5): 134-143.
吴剑, 陈鹏, 刘耀林, 等, 2013. 震害损毁建筑物高分辨率遥感信息提取方法[J]. 地理与地理信息科学, 29(3): 35-38, 47, 2.
杨春, 2015.面向对象的高分辨率遥感影像建筑物倒损信息提取.北京: 中国地质大学(北京).
Bottou L., 2012. Stochastic gradient descent tricks[M]//Neural networks: Tricks of the trade. Springer, Berlin, Heidelberg, 421-436.
Carreira J., Sminchisescu C., 2011. CPMC:Automatic object segmentation using constrained parametric min-cuts[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 34(7): 1312-1328.
Erhan D., Szegedy C., Toshev A., et al., 2014. Scalable object detection using deep neural networks. 2014 IEEE Conference on Computer Vision and Pattern Recognition, Columbus, OH.
Fulkerson B., Vedaldi A., Soatto S., et al., 2009. Class segmentation and object localization with superpixel neighborhoods. 2009 IEEE 12th International Conference on Computer Vision, Kyoto, Japan.
Girshick R., Donahue J., Darrell T., et al., 2014. Rich feature hierarchies for accurate object detection and semantic segmentation. 2014 IEEE Conference on Computer Vision and Pattern Recognition, Columbus, OH.
Girshick R., 2015. Fast R-CNN. 2015 IEEE International Conference on Computer Vision, Santiago.
Janalipour M., Mohammadzadeh A., 2016. Building damage detection using object-based image analysis and ANFIS from high-resolution image (Case study:BAM Earthquake, Iran)[J]. IEEE Journal of Selected Topics in Applied Earth Observations & Remote Sensing, 9(5): 1937-1945.
He K., Zhang X., Ren S., et al., 2015. Deep residual learning for image recognition.
Krizhevsky A., Sutskever I., Hinton G.E., 2012. ImageNet classification with deep convolutional neural networks[J]. Advances in Neural Information Processing Systems, 25(2): 1097-1105.
Lecun Y., Bottou L., Bengio Y., 1998. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 86(11): 2278-2324. DOI:10.1109/5.726791
Liu W., Anguelov D., Erhan D., et al., 2016.SSD: Single shot multibox detector.
Proceedings of the 14th European Conference on Computer Vision. Berlin, Germany: Springer Verlag.
Long J., Shelhamer E., Darrell T., 2015. Fully convolutional networks for semantic segmentation. 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Boston, USA.
Mnih V., 2013. Machine learning for aerial image labeling. Toronto: University of Toronto.
Ren S.Q., He K.M., Girshick R., et al, 2017. Faster R-CNN:Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(6): 1137-1149. DOI:10.1109/TPAMI.2016.2577031
Sermanet P., Eigen D., Zhang X., et al., 2013.OverFeat: Integrated recognition, localization and detection using convolutional networks.International Conference on Learning Representations.
Shotton J., Johnson M., Cipolla R., 2008. Semantic texton forests for image categorization and segmentation. IEEE Conference on Computer Vision and Pattern Recognition.Anchorage, AK, USA.
Shotton J., Winn J., Rother C., et al, 2009. Textonboost for image understanding:Multi-class object recognition and segmentation by jointly modeling texture, layout, and context[J]. International Journal of Computer Vision, 81(1): 2-23. DOI:10.1007/s11263-007-0109-1
Simonyan K., Zisserman A., 2014. Very deep convolutional networks for large-scale image recognition.
Szegedy C., Liu W., Jia Y., et al., 2015. Going deeper with convolutions.2015 IEEE Conference on Computer Vision and Pattern Recognition, Boston, MA, USA.