引用本文
郑经纬, 周越, 高爽, 戴志军, 陈苏, 熊政辉. 2020. 面向地震巨灾保险的建筑特性快速提取方法. 震灾防御技术, 15(4): 739-748, DOI:10.11899/zzfy20200408.
权限
面向地震巨灾保险的建筑特性快速提取方法
郑经纬1) 周越2,4) 高爽2,4) 戴志军2,4) 陈苏2,4) 熊政辉3)
1) 中国能源建设股份有限公司, 北京 100022
2) 中国地震局地球物理研究所, 北京 100081
3) 中国再保险集团股份有限公司博士后工作站, 北京 100033
4) 中国地震风险与保险实验室, 北京 100081
[基金项目]:中央级公益性科研院所基本科研业务费专项(DQJB17C03、DQJB17T01)
[收稿日期]:2020-06-04
[作者简介]:郑经纬, 男, 生于1987年。高级工程师。主要从事电力工程建设及计算机应用。Email: zhengjw_thu@126.com
[通讯作者]:戴志军, 男, 生于1981年。副研究员。主要从事地震工程及工程振动。Email: dzj@cea-igp.ac.cn
摘要

房屋建筑分类是抗震设计和地震风险分析的基础,是巨灾保险的纽带环节,也是结构易损性准确、完备分析的前驱保障,快速获取建筑特性参数非常关键。基于影像数据获取结构特性相比传统手段具有显著优势,然而其准确性具有一定挑战性,从影像数据得到实时的、较准确的结构特性成为地震保险数据获取技术的关注焦点。本文采用深度学习方法开展从影像数据中提取面向地震保险需求的建筑特性数据,构建基于深度学习方法的建筑高度识别模型和基于机器视觉的建筑高度识别方法,运用基于Xception神经网络深度学习和机器视觉的模型,对北京地区的建筑高度进行模型测试,该方法可为地震保险分析提供重要的基础数据支持。

关键词: 地震  巨灾保险  建筑特性  信息提取  


引言

建筑类型分类是抗震设计的基础,也是地震风险研究的依据。对不同建筑物进行分类研究,编制建筑分类清单并进行易损性分析,根据所得破坏概率矩阵,可对建筑群及城市风险进行预测和评估。面向地震保险的房屋建筑分类需满足区域化、高效化及信息化等要求,与传统的建筑分类方式存在较大区别。在地震保险应用中,城市建筑物的整体情况是至关重要的数据资料,相比通过人力调查,利用遥感影像获取相关信息具有省时省力的优势。随着遥感技术的成熟,遥感影像的分辨率已经非常高,其图像获取及应用对地震保险有重要意义。遥感数据的不断丰富为地震保险领域的研究提供了数据支持,但从海量数据中提取有用信息也是一项挑战。面对海量图像数据,依靠人工对图像进行分类及标注的管理方式需耗费大量人力资源,采用计算机自动识别的方法显得尤为重要。利用传统图像处理方法提取的图像底层特征所建模型的类别语义与用户高层语义之间的语义鸿沟,使得计算机图像的自动解译变得异常困难,如何跨越语义鸿沟,使计算机不仅能独立完成像素(区域)级的分类,而且能学习图像的高层语义,自动完成图像级的分类和识别,成为该学科领域的一个热点和难点问题。主流遥感图像的分辨率已达分米级,以往行之有效的一系列针对中低分辨率的模型及方法在高分辨率下效果并不理想。对高分辨率遥感影像中的目标进行匹配、分类、识别等操作,需要更多地考虑诸如纹理、统计量分布、几何形状、空间上下文等计算机视觉特征。同时,由于遥感图像分辨率的提高,图像细节不断增多,结构复杂性也随之增加,可提取的结构特性也将更加丰富。

深度学习的概念源于人工神经网络研究,含多隐层的多层感知器(MLP)就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示(属性类别或特征),以发现数据的分布式特征表示。近几年,深度学习在机器学习领域取得重大突破,使得图像识别、语音识别精度大幅度提高(Mikolov等,2011Ciodaro等,2012Hinton等,2012Krizhevsky等,2012Farabe等,2013Helmstaedter等,2013Sainath等,2013Tompson等,2014Szegedy等,2014Ma等,2015)。这方面的发展主要基于算法的逐渐成熟和数据的不断丰富。深度结构(涉及多个非线性处理单元层)非凸目标代价函数中普遍存在的局部最小是训练困难的主要来源。基于深信度网(DBN)提出非监督贪心逐层训练算法(Bengio等,1994, 2005),此外提出的卷积神经网络(CNNS)是第一个真正多层结构学习算法,它利用空间相对关系减少参数数目以提高BP训练性能(Le Cun等,1990)。利用深度学习技术从遥感影像中提取结构特性的相关研究较少,现有研究主要集中在利用固定的图像处理算法从遥感影像中提取建筑物相关信息,如利用阴影几何模型和阴影特征实现阴影检测,基于阴影的强度和几何形状实现影像的识别和分类(Jiang等,1994)。夏浩铭等通过提取纹理特征结合BP神经网络实现对遥感地物进行判定分类(夏浩铭等,2012);利用支持向量机的方法,通过训练分类器实现阴影区域的检测(Choi等,2010)。现有建筑物结构分类方法主要有现场调查、遥感影像人工解译、影像光谱特征分析、影像多特征融合等(李强等,2016杜浩国等,2018李金香等,2019),与机器学习方法相比人工干预较为显著。采用较为先进的图像分类及处理技术,可以提高分类精度及效率。

本文基于深度学习方法构建建筑高度、建筑功能和建筑结构类型识别模型,完成基于机器视觉的建筑高度模型;运用训练好的基于Xception神经网络深度学习模型和基于机器视觉的模型,对北京地区的建筑高度进行模型测试,此方法可为地震保险分析提供重要的基础数据支持。

1 基于深度学习的建筑信息识别模型
1.1 数据来源及深度学习网络识别模型

本文所采用的街景图像主要来自于北京市主城区,获取内容如下:

(1)目标城市主城区道路分布图(shp格式),主要包括空间位置、道路长度、道路级别等信息,坐标系为WGS84。主城区建筑分布图(shp格式),包括空间位置信息(经纬度、轮廓范围,坐标系为WGS84)和房屋属性信息(编号、存在状态、地址、房屋层数、结构类型、建筑年代、面积、周长等)。

(2)选取所需关注因素:房屋编号、经纬度、房屋层数、结构类型、建筑年代、面积、周长等,对相应数据进行筛选和清洗。

(3)利用百度地图JavaScript API,将地理信息数据由WGS84坐标转化为百度地图BD09中可以使用的地理坐标。

(4)考虑建筑物中心点坐标以及全景的位置,选择视角、视野等参数,利用百度地图中的全景静态图服务批量获取街景图。建筑数据来源及入库流程如图 1所示。


图 1 建筑数据来源及入库流程 Fig. 1 Construction data source and storage process

本项目对建筑高度的识别主要通过提取建筑物的层高特征进行判断,将建筑物按照层高分为1层,2-3层,4-6层以及7层以上。其中训练集为15000张,验证集为1000张,测试集为895张,通过将训练集输入至深度学习模型进行计算,最后模型在测试集的准确率为52.4%,识别受限于树木、道路遮挡等状况。本文通过Xception神经网络中的卷积神经网络进行建筑特征图像识别,包括Entry flow、Middle flow、Exit flow三部分,其中Entry flow包含8个conv,Middle flow包含3×8=24个conv,Exit flow包含4个conv,共36层,层与层之间采用残差形式连接。Xception神经网络模型识别建筑信息处理流程如图 2所示。


图 2 Xception神经网络模型识别建筑信息处理流程图 Fig. 2 Xception neural network model recognition building information processing flow chart
1.2 模型参数对结果的影响

本文构建的机器学习模型共有5个卷积层,图 3(a)(b)(c)分别为冻结全部卷积层参数、冻结前四个卷积层参数、冻结前三个卷积层参数后的计算结果。表 1是冻结不同卷积层参数的结果对比。由图可知,当冻结全部卷积层参数时,只训练全连接层数,网络是发散的,因此训练获得参数无法使用;当冻结前四个卷积层参数或冻结前三个卷积层参数时,均可取得较好的效果,测试精度和测试误差相似,但冻结前四个卷积层参数相比冻结前三个卷积层参数,其收敛更快,能更快达到期望的效果。


图 3 冻结不同层参数实验结果 Fig. 3 The experimental results of freezing different layer parameters
表 1 冻结不同卷积层参数计算结果 Table 1 The experimental results of freezing different layer parameters
2 基于机器视觉的建筑信息识别模型
2.1 图像来源及处理方法

首先从OSM网站2下载北京地区的地理信息,并将下载的OSM格式数据转化为json格式,再从已有信息中提取所有建筑物坐标和建筑物类型,共计57302栋建筑物。对相应数据进行处理,可将建筑物信息保存为包括建筑物角点坐标、建筑物中心位置坐标的一系列文件,建筑物中心位置坐标通过建筑物角点坐标计算得到;其次,通过百度地图开放网站获取建筑物对应的相机经纬度坐标、偏航角和俯仰角等,通过API接口批量获取对应建筑物的街景图。经统计,存在相机位置的建筑物数量为24437栋(包含损坏图片)。按照相机投影原理,将OSM数据中建筑物的轮廓坐标投影到街景图中,根据两者之间的匹配关系确定建筑物高度,从OSM数据可获得正阳门轮廓中四个角点的经纬度坐标分别为(x1y1)、(x2y2)、(x3y3)、(x4y4),及对应的相机位置为(xcyc),根据相机位置和建筑物位置,选取四个角中的两个角点作为投影坐标,用P表示:

2 https://www.openstreetmap.org

$\boldsymbol{P}{\rm{ = }}\left[ \begin{gathered} {x_{\rm{1}}}, {y_{\rm{1}}} \\ {x_{\rm{2}}}, {y_{\rm{2}}} \\ \end{gathered} \right]$ (1)

获取的街景图宽1024像素,长512像素,偏航角α由建筑物中心位置和相机的相对位置确定,俯仰角β统一设置为0°,翻滚角γ为0°,确定相机外参矩阵及内参矩阵,得到相机投影坐标。外参矩阵和内参矩阵如式(2)—(6)所示:

$ \boldsymbol{R}=\boldsymbol{R}_{y} \ · \ \boldsymbol{R}_{x} \ · \ \boldsymbol{R}_{z}$ (2)
${\boldsymbol{R}_z} = \left[ {\begin{array}{*{20}{c}} {\cos (\alpha)}&{ - \sin (\alpha)}&0 \\ {\sin (\alpha)}&{\cos (\alpha)}&0 \\ {0}&{ 0}&1 \end{array} } \right]$ (3)
${\boldsymbol{R}_x} = \left[ {\begin{array}{*{20}{c}} 1&0&0 \\ 0&{\cos (\beta)}&{ - \sin (\beta)} \\ 0&{\sin ((\beta))}&{\cos (\beta)} \end{array}} \right]$ (4)
${\boldsymbol{R}_y} = \left[ {\begin{array}{*{20}{c}} {\cos (\gamma)}&0&{\sin (\gamma)} \\ {0}&1&{0} \\ { - \sin (\gamma)}&0&{\cos (\gamma)} \end{array} } \right]$ (5)
$\boldsymbol{K}=\left[ \begin{matrix} {}^{f}\!\!\diagup\!\!{}_{{{d}_{x}}}\; & \ \ \ 0 & {{u}_{0}} \\ 0 & {}^{f}\!\!\diagup\!\!{}_{{{d}_{y}}}\; & {{v}_{0}} \\ 0 & \ \ \ 0 & 1 \\ \end{matrix} \right]$ (6)

式中,f为焦距,dxdy为尺度因子。

世界坐标到相机坐标的映射关系如式7所示:

$\lambda p = {\rm{[}}K{\rm{|}}{\boldsymbol{O}_{\rm{3}}}{\rm{]}}\left[ {\begin{array}{*{20}{c}} \boldsymbol{R}&{ - \boldsymbol{R}C} \\ {\boldsymbol{O}_{\rm{3}}^{\rm{T}}}&1 \end{array}} \right]\left[ {\begin{array}{*{20}{c}} P \\ 1 \end{array} } \right]$ (7)

式中,$\lambda p$为投影到街景图上的坐标,P为投影坐标(辅以高度信息),K为相机内参数,C为相机中心坐标,O3表示零矩阵。

2.2 模型识别效果

为测试并验证本文模型利用街景图识别建筑高度的准确性和适用性,从OSM数据库下载北京市的建筑轮廓数据,并通过上述模型对采集的百度街景图进行识别计算,共获得14056栋建筑的高度。为对比模型计算结果与第三方数据公司提供的近似真实建筑高度的差别,本文按照楼层数量对建筑进行分类分析,具体分为1-9层(高度<30米)和10层及以上(高度≥30米)两类。模型测算高度与真实高度的相关性和误差如图 46所示,其中图 4为所有建筑数据集合,图 5图 6分别为不同高度数据集合。由图可知,模型测算高度与误差之间有较好的相关性。在建筑高度为1-9层(小于30米)时,机器学习获取的建筑高度与误差之间的线性拟合相关性R2达到0.9337,随着建筑高度增加,本模型测算出的建筑高度误差增大,即本模型在识别建筑高度时,对于中低层建筑识别精度较高,建筑过高会增加识别的误差。


图 4 模型测算高度与真实高度的相关性和误差(北京市核心域区建筑) Fig. 4 The correlation and error between the model's measured height and the true height (Beijing's core urban area)

图 5 模型测算高度与真实高度的相关性和误差(1-9层) Fig. 5 The correlation and error of the model's measured height and the true height (1-9 layers)

图 6 模型测算高度与真实高度的相关性和误差(10层及以上) Fig. 6 The correlation and error of the model's measured height and the true height (above 10 layers)
3 结论

本文采用深度学习方法从影像数据中提取面向地震保险需求的建筑特性数据,构建基于深度学习方法的建筑高度识别模型,运用训练好的基于Xception神经网络深度学习模型对北京地区的建筑高度进行测试。结果表明,从技术方法角度,识别是可行的,但从数据源角度,街景图像的背景复杂,车辆、行人和树木可能会干扰提取图像特征,如何进行图像去噪将是后期研究的重点;采用机器视觉技术进行建筑高度识别,在建筑高度小于30米时,模型测算高度与误差之间的线性拟合相关性较高,其线性拟合给出的是误差的平均值,误差的平均值不代表识别精度的高低,主要反应的是整体估计的偏差。楼层越低,模型总体估计越大,楼层越高,模型总体估计越小。新方法和传统方法的结合使用可为地震保险分析提供重要的基础数据支持。

参考文献
杜浩国, 张方浩, 邓树荣, 等, 2018. 震后极灾区无人机最优航拍区域选择[J]. 地震研究, 41(2): 209-215. DOI:10.3969/j.issn.1000-0666.2018.02.008
李金香, 赵朔, 金花, 等, 2019. 结合纹理和形态学特征的高分遥感影像建筑物震害信息提取[J]. 地震学报, 41(5): 658-670.
李强, 张景发, 2016. 不同特征融合的震后损毁建筑物识别研究[J]. 地震研究, 39(3): 486-493. DOI:10.3969/j.issn.1000-0666.2016.03.018
夏浩铭, 罗金辉, 雷利元, 等, 2012. 辅以纹理和BP神经网络的TM遥感影像分类[J]. 地理空间信息, 10(1): 33-36. DOI:10.3969/j.issn.1672-4623.2012.01.012
Bengio Y., Simard P., Frasconi P., 1994. Learning long-term dependencies with gradient descent is difficult[J]. IEEE Transactions on Neural Networks, 5(2): 157-166. DOI:10.1109/72.279181
Bengio Y., Delalleau O., Le Roux N., 2005. The curse of highly variable functions for local kernel machines. In: Proceedings of the 18th International Conference on Neural Information Processing Systems. Vancouver, British Columbia: MIT Press, 107-114.
Choi J., Yoo Y. J., Choi J. Y., 2010. Adaptive shadow estimator for removing shadow of moving object[J]. Computer Vision and Image Understanding, 114(9): 1017-1029. DOI:10.1016/j.cviu.2010.06.003
Ciodaro T., Deva D., de Seixas J. M., et al, 2012. Online particle detection with neural networks based on topological calorimetry information[J]. Journal of Physics: Conference Series, 368(1): 012030.
Farabet C., Couprie C., Najman L., et al, 2013. Learning hierarchical features for scene labeling[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(8): 1915-1929. DOI:10.1109/TPAMI.2012.231
Helmstaedter M., Briggman K. L., Turaga S. C., et al, 2013. Connectomic reconstruction of the inner plexiform layer in the mouse retina[J]. Nature, 500(7461): 168-174. DOI:10.1038/nature12346
Hinton G., Deng L., Yu D., et al, 2012. Deep neural networks for acoustic modeling in speech recognition: the shared views of four research groups[J]. IEEE Signal Processing Magazine, 29(6): 82-97. DOI:10.1109/MSP.2012.2205597
Jiang C. X., Ward M. O., 1994. Shadow segmentation and classification in a constrained environment[J]. CVGIP: Image Understanding, 59(2): 213-225. DOI:10.1006/ciun.1994.1014
Krizhevsky A., Sutskever I., Hinton G. E., 2012. ImageNet classification with deep convolutional neural networks. In: Proceedings of the 25th International Conference on Neural Information Processing Systems - Volume 1. Lake Tahoe, Nevada: Curran Associates Inc.
Le Cun Y., Boser B., Denker J. S., et al., 1990. Handwritten digit recognition with a back-propagation network. In: Touretzky D. S., ed., Advances in Neural Information Processing Systems 2. San Francisco CA: Morgan Kaufmann Publishers Inc., 396-404.
Ma J. S., Sheridan R. P., Liaw A., et al, 2015. Deep neural nets as a method for quantitative structure-activity relationships[J]. Journal of Chemical Information and Modeling, 55(2): 263-274. DOI:10.1021/ci500747n
Mikolov T., Deoras A., Povey D., et al., 2011. Strategies for training large scale neural network language models. In: Proceedings of 2011 IEEE Workshop on Automatic Speech Recognition & Understanding. Waikoloa: IEEE, 196-201.
Sainath T. N., Mohamed A. R., Kingsbury B., et al., 2013. Deep convolutional neural networks for LVCSR. In: Proceedings of 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver, BC: IEEE, 8614-8618.
Szegedy C., Liu W., Jia Y. Q., et al., 2014. Going deeper with convolutions. In: Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA: IEEE.
Tompson J., Jain A., LeCun Y., et al., 2014. Joint training of a convolutional network and a graphical model for human pose estimation. In: Proceedings of the 27th International Conference on Neural Information Processing Systems - Volume 1. Montreal, Canada: MIT Press, 1799-1807.