引用本文
韶丹, 高贞贞, 田勤虎, 张炜超, 任浩. 2020. 遗传神经网络在烈度评估中的研究与应用. 震灾防御技术, 15(4): 749-756, DOI:10.11899/zzfy20200409.
权限
遗传神经网络在烈度评估中的研究与应用
韶丹1) 高贞贞2) 田勤虎1) 张炜超1) 任浩1)
1) 陕西省地震局, 西安 710068
2) 西安交通大学, 信息与通信工程学院, 西安 710049
[基金项目]:中国地震局地震应急青年重点任务(CEAEDEM201915)
[收稿日期]:2020-06-11
[作者简介]:韶丹, 男, 生于1985年。硕士, 高级工程师。主要从事地震应急及震灾评估工作。E-mail: 258954278@qq.com
摘要

准确判定极震区烈度是震后应急工作高效开展的重要基础。收集1966—2017年发生在中国大陆地区MS 5.0以上有详细烈度记录的地震事件322例,选取与极震区烈度有关的7个因子进行主成分分析,将提取的主成分确定为BP神经网络的输入,极震区烈度为输出,在遗传算法优化的基础上,构建用于极震区烈度预测的BP神经网络模型。结果显示,与传统模型相比,神经网络模型在预测误差分布、精度和预测结果正确率等方面都具有明显的优越性。

关键词: 主成分分析  遗传算法  BP神经网络  极震区烈度  模型  


引言

在一次地震事件中,房屋破坏最严重、地震灾害损失最大的区域称为极震区,这个区域的烈度称为极震区烈度。极震区烈度的大小是快速判断灾害规模和严重程度,指导地震应急响应和决策的重要依据。研究表明,即使两次地震的震级相同,但由于震源深度、震中所在地区的地质构造、建筑物抗震性能等因素的差异,造成的极震区烈度也有所不同(韶丹等, 2018a, 2018b)。

美国、日本等发达国家和地区已经实现了基于密集烈度台网的烈度实时动态速报,而目前我国大部分地区仍无法实现基于烈度计的烈度快速产出。一般烈度快速评估工作都基于烈度衰减关系进行,借助地震烈度衰减关系,只需震级这一参数,即可在震后快速估计极震区烈度及灾区的大致范围。利用历史等震线资料,许多学者建立了我国不同区域的地震烈度衰减关系(汪素云等,2000雷建成等,2007周中红等,2011王晓军等,2012刘军等,2014聂高众等,2018),也有学者通过对历史数据的回归分析,建立了极震区烈度判定模型(马骏驰等,2005雷建成等,2006许卫晓等,2016聂高众等,2018),这些模型可根据震级和震源深度直接估计极震区烈度。

然而,影响烈度分布的因素有很多,如震级、震源深度、场地条件、烈度评定标准等,这些因素与烈度之间有着十分复杂的映射关系,以往的模型中仅考虑震级和震源深度两个因素,很难准确描述地震烈度分布情况。长期的工作实践也发现,借助烈度衰减关系计算得到的烈度分布与实际情况存在较大偏差,这种偏差直接导致震害快速评估结果的不确定性。

随着人工智能、机器学习等技术的发展及我国大量历史地震资料的积累,人工神经网络在地震灾害预测领域的应用逐渐广泛(钱枫林等,2013朱林等,2015赵士达等,2016胡旺等,2018),但鲜有学者基于人工神经网络建立多个指标与极震区烈度的相关模型。除震源自身属性外,场地条件作为影响烈度的重要因素之一,在以往研究中考虑较少。同时,研究表明由于判定标准的不同,相同震级造成的极震区烈度在不同时期存在较大差异。地震烈度表作为我国烈度判定的唯一标准,自1957年编制以来先后进行过3次修订(1980年、1999年、2008年),烈度表的变化对极震区烈度判定有举足轻重的影响。

本文基于大量历史数据,综合考虑影响极震区烈度的多种因素,提取主成分作为输入因子,在遗传算法优化的基础上,建立BP神经网络模型,用于震后极震区烈度的快速判定,为地震应急提供决策依据。

1 数据及主成分分析
1.1 数据

收集1966—2017年中国大陆地区5.0级以上、有详细烈度记录的历史地震322例,资料来源于《中国大陆地震灾害损失评估汇编》《中国震例》、公开发布的地震灾害损失报告及各省地震局官方网站。选取与极震区烈度紧密相关的7个因素:(1)震级,反映地震释放能量的大小,直接决定地震对地面的损害程度;(2)震源深度,指断层破裂点距地面的垂直距离,是影响烈度大小的重要因素之一;(3)大陆分区,研究表明,相同震级对大陆东部和西部区域造成的极震区烈度存在差异,同时由于不同的地质构造条件,历史地震极震区等震线的形态在大陆东部和西部也有所不同(汪素云等,2000)。以东经105°为界,将中国大陆分为东部和西部两个区域,在参数中用A1和A2表示;(4)VS30,即地表以下30m深度范围内的等效剪切波速,表征震中场地条件的因子,国内外许多学者将该值作为衡量场地放大效应的因子,并应用于各种震害损失评估系统(Wald等,1999Allen等,2007陈鲲等,2010),其值越大表示场地越硬,值越小表示场地越软,不同的场地条件对地震波有不同的放大效应;(5)设计峰值加速度,烈度区划给出的当地建筑物抗震设防指标;(6)人均GDP,震中所在省份人均GDP,该指标与当地农居建筑物抗震措施有一定的相关关系;(7)烈度评定使用的烈度表版本,对应我国4个版本的地震烈度表,即1957版、1980版、1999版和2008版,在参数中用Ⅴ1—Ⅴ4表示,作为烈度判定的唯一标准,烈度表的差异对极震区烈度的评定影响较大。

1.2 主成分分析

一般为全面描述研究的问题,会尽可能多的收集相关指标,但过多的指标可能会给信息带来重叠和掩盖,使得问题复杂化,因此,对选用的指标应进行合理筛选,保证指标的敏感性、代表性和简明性。主成分分析法就是利用降维的思想,把多指标转化为几个综合指标(即主成分),其中每个主成分都能够反映原始变量的大部分信息,且所含信息互不重复,使问题简单化,得到的结果更加科学有效。

n为样本数,m为每个样本对应的指标数,xij表示第ii=1,2,…,n)个样本的第jj=1,2,…,m)个观测值,样本矩阵归一化后记$\boldsymbol{X} = [{\text{x}_{ij}}]$,并计算其相关系数矩阵及特征值λj,则每个成分的贡献率为:

$ {E_j} = {\lambda _j}/\sum\limits_{j = 1}^m {{\lambda _j}(j = {\rm{1, 2, }} \ldots, \ m)} $ (1)

则前h个成分的累积贡献率为:

${W_h} = \sum\limits_{h = 1}^j {{E_j}(j = 1, \ 2, \ \ldots, \ m)} $ (2)

按照贡献率大小排序后,选择累计贡献率达到85%—95%的特征值λj所对应的指标作为主成分。样本数据归一化后,对所选的7个因子进行主成分分析,计算得到各成分特征值及贡献率如表 1所示。

表 1 各成分贡献率及累积贡献率 Table 1 Contribution rate and cumulating contribution rate of each component

表 1可知,前6项成分的累积贡献率达94.96%,因此前6个主成分即可替代原始7个因素的特征属性,选取前6个成分作为判断极震区烈度的主成分特征属性。载荷系数反映了选取的主成分和原始指标之间的投影关系,标准化后的样本矩阵与载荷矩阵相乘即为降维过程,本文主成分分析得到的载荷矩阵如表 2所示。

表 2 选取的6个主成分因子载荷系数 Table 2 Lood factor of six principal components selected

由主成分分析原理可知,降维后的新样本矩阵$\boldsymbol{Y} = [{{\rm{y}}_{kp}}]$k=1,2,…,n,代表样本个数,p=1,2,…,6,代表降维后的指标数)与原样本矩阵之间的关系为:

$\boldsymbol{Y} = \boldsymbol{XC}$ (3)

其中,C表 2所示的6个主成分因子载荷系数构成的矩阵。

2 基于遗传算法的BP神经网络优化
2.1 BP神经网络构建

BP神经网络(Back-Propagation Network)是一种多层前馈神经网络,该网络的主要特点是信号前向传播而误差反向传播。在网络中信号从输入层经隐含层逐层处理并传播,直到输出层。如果输出层得不到期望值,则转入反向传播,根据预测误差调整网络的权值和阈值,从而使网络输出不断逼近期望值,其拓扑结构如图 1所示,I1I2In是BP网络的输入值,O1O2Om是网络预测值,ωij和ωjk为网络权值。


图 1 神经网络结构示意图 Fig. 1 Sketch diagram of BP neural network

根据主成分分析结果及预测目标,确定本文的BP神经网络为3层结构,输入层6个神经元,输出层1个神经元。隐含层神经元数量根据经验公式(王鹤等,2018)确定大致范围后,经反复试算,选择模型训练结果误差最小时对应的隐含层神经元个数作为隐含层节点数,本文最终确定为12个。选择tansig、purelin和trainlm函数分别作为输入层传递函数、隐含层传递函数和训练函数,网络训练的学习率设置为0.1,目标精度设置为0.01,单次最大迭代次数设置为1000次。

2.2 遗传算法优化BP神经网络

由于BP神经网络的误差反向传播特性,使得网络对初始值即初始的权值和阈值依赖程度较高,然而初始值在网络初始化过程中是随机给定的,这不仅导致迭代次数增加、计算量增大,更重要的是很容易造成算法陷入局部最优解,进而导致模型预测精度低、泛化能力差(肖恭伟等,2018)。为有效避免以上缺陷,在网络训练之前,使用遗传算法对BP神经网络的初始值进行优化。

遗传算法(GA)是模拟自然界遗传机制和生物进化论而形成的并行随机搜索最优化方法。该方法把自然界“优胜劣汰”的生物进化理论,引入由待优化的参数形成的编码串中,按照所选择的适应度函数,通过模拟遗传中的选择、交叉、变异操作对个体进行筛选,使得适应度好的个体被保留,新的群体既继承上一代的信息又优于上一代,这样反复循环,直到满足条件。

本研究中初始的权值和阈值即为待优化参数,对其进行二进制编码后,以网络训练的总体误差作为适应度函数,进行多次遗传操作,选择适应度最高的个体作为遗传结果,解码后对神经网络的初始值重新赋值,然后进行网络训练,直至满足设定条件,本文遗传算法种群规模及遗传代数均为100,交叉概率为0.75,变异概率为0.01。

3 BP神经网络训练与仿真
3.1 神经网络训练

理想的网络模型既具有较高的训练精度,又具有良好的泛化能力。在网络训练过程中,将学习数据随机分为训练样本、测试样本和验证样本3部分,每个样本占原始数据的比例分别为60%、20%和20%。其中训练样本用来参与机器学习,随迭代次数的增加不断提高训练精度;测试样本用来评价训练后网络的预测精度;验证样本用于防止网络过拟合,当验证样本的预测精度随网络训练精度的提高反而下降时,说明网络可能出现过拟合情况。

为同时保证网络训练精度和泛化能力,设定当验证样本训练误差连续15次不再下降时,则终止训练,并将验证样本的精度最小值确定为最佳精度,该精度下的迭代次数所对应的训练结果作为网络训练的最终结果。

3.2 神经网络仿真应用

选取训练样本之外的10次地震事件,提取选定的各事件的7个相关因子并做归一化处理,依据前文主成分分析得到的载荷矩阵和公式(3)提取主成分,应用训练好的神经网络模型对10次地震的极震区烈度进行仿真测试。由于烈度值为整数,此处的仿真结果为四舍五入后的值,结果如表 3所示,表 3中同时给出各地震事件极震区烈度的实际调查值。结果显示,本文构建的神经网络模型对极震区烈度具有较好的预测效果。

表 3 极震区烈度神经网络仿真结果 Table 3 Neural network simulation of maximum intensity
4 神经网络模型评价
4.1 模型拟合优度分析

为检验神经网络模型的优度和预测效果,利用训练好的网络分别对训练样本、验证样本、测试样本及所有数据进行仿真,将仿真结果与实际烈度值(归一化后)进行回归分析,结果如图 2所示。图中彩色实线为神经网络仿真结果(网络输出)的一次拟合曲线,虚线为期望值即目标值曲线,R为相关系数。从图中可以看出,仿真结果与期望值比较接近。


图 2 四个样本的仿真结果回归分析 Fig. 2 Simulation regression analysis of four samples
4.2 不同模型预测误差分布

收集目前我国地震系统广泛使用的三种烈度衰减模型:大陆东西分区烈度衰减模型(2套)、五代区划图烈度衰减模型(4套)和不同学者研究给出的我国不同区域的区域烈度衰减模型(22套),分别使用以上4种模型对所有样本数据进行预测,将预测值与实际值间的差值定义为预测误差,其分布如图 3所示。由图可知,神经网络模型的MSE最小,误差均匀且较集中的分布在0轴两侧,误差分布明显优于其他三种模型。


图 3 四种模型的预测误差分布 Fig. 3 Prediction error distribution of four models
4.3 不同模型预测结果准确率

通过四种模型对322个地震事件极震区烈度进行预测,结果见表 4。从表中可以看出,神经网络模型预测结果的准确率达80%,较其他三种模型有明显提高。从预测结果大于和小于实际值的占比发现,两种情况下,神经网络模型占比相当,而其他三种模型差异较大,且均表现为大于实际值的部分占比偏高,说明其他三种模型预测结果存在明显的系统性偏差,即预测结果普遍偏大。

表 4 四种模型的预测结果 Table 4 Prediction results of four models
5 结论

研究收集中国大陆1960年以来MS5.0以上地震的烈度数据,选取影响极震区烈度的7个相关因子,将主成分分析提取的6个主成分作为BP神经网络模型的输入,构建新的遗传神经网络极震区烈度判定模型。与传统烈度衰减模型相比,神经网络模型预测效果优势明显。

除文章所选因素之外,还有一些因素也会对烈度评定结果造成影响,如随着对地震灾害的重视和经济的发展,一些地区实施了有针对性的民居抗震工程;其次,个别区域虽然经济水平较高,但受建筑风格、民俗习惯等影响,建筑物的抗震能力与经济水平无明显正相关关系。由于数据获取难度大,本文未考虑以上因素,这增加了神经网络模型预测结果的不确定性。

参考文献
陈鲲, 俞言祥, 高孟潭, 2010. 考虑场地效应的ShakeMap系统研究[J]. 中国地震, 26(1): 92-102. DOI:10.3969/j.issn.1001-4683.2010.01.009
胡旺, 张建, 陈维锋, 等, 2018. 基于神经网络的烈度衰减融合模型研究[J]. 电子科技大学学报, 47(2): 224-229. DOI:10.3969/j.issn.1001-0548.2018.02.010
雷建成, 高孟潭, 俞言祥, 2006. 西南地区近代地震的震中烈度与有感半径的统计研究[J]. 震灾防御技术, 1(2): 137-145. DOI:10.3969/j.issn.1673-5722.2006.02.007
雷建成, 高孟潭, 俞言祥, 2007. 四川及邻区地震动衰减关系[J]. 地震学报, 29(5): 500-511. DOI:10.3321/j.issn:0253-3782.2007.05.007
刘军, 吕红山, 温和平, 等, 2014. 稳健回归模型在地震烈度衰减关系中的应用[J]. 地震工程学报, 36(1): 114-119. DOI:10.3969/j.issn.1000-0844.2014.01.0114
马骏驰, 窦远明, 苏经宇, 等, 2005. 东南沿海地区震级与震中烈度的统计关系[J]. 世界地震工程, 21(4): 119-122. DOI:10.3969/j.issn.1007-6069.2005.04.020
聂高众, 徐敬海, 2018. 基于震源深度的极震区烈度评估模型[J]. 地震地质, 40(3): 611-621. DOI:10.3969/j.issn.0253-4967.2018.03.008
钱枫林, 崔健, 2013. BP神经网络模型在应急需求预测中的应用——以地震伤亡人数预测为[J]. 中国安全科学学报, 23(4): 20-25.
韶丹, 孙哲, 田勤虎, 2018a. 联合钻孔资料及地形数据估算宝鸡地区VS30[J]. 地震地磁观测与研究, 39(1): 117-122.
韶丹, 孙哲, 田勤虎, 等, 2018b. 中国大陆历史地震烈度统计[J]. 地震地磁观测与研究, 39(4): 135-140.
王鹤, 刘梦琳, 席振铢, 等, 2018. 基于遗传神经网络的大地电磁反演[J]. 地球物理学报, 61(4): 1563-1575.
汪素云, 俞言祥, 高阿甲, 等, 2000. 中国分区地震动衰减关系的确定[J]. 中国地震, 16(2): 99-106.
王晓军, 文毅, 鲁权, 等, 2012. 陕西分区烈度衰减关系研究[J]. 灾害学, 27(4): 98-102.
肖恭伟, 欧吉坤, 刘国林, 等, 2018. 基于改进的BP神经网络构建区域精密对流层延迟模型[J]. 地球物理学报, 61(8): 3139-3148.
许卫晓, 杨伟松, 孙景江, 等, 2016. 震中烈度与震级和震源深度经验关系的统计回归分析[J]. 自然灾害学报, 25(2): 139-145.
赵士达, 张楠, 张斯文, 等, 2016. 基于LM-BP神经网络的地震直接经济损失快速评估方法研究[J]. 地震研究, 39(3): 500-506.
周中红, 何少林, 陈文凯, 等, 2011. 甘肃地区地震烈度影响场计算模型参数的改进研究与应用[J]. 震灾防御技术, 6(2): 180-189.
朱林, 姜立新, 杨天青, 2015. BP神经网络模型在地震应急人员伤亡评估中的应用[J]. 自然灾害学报, 24(6): 33-41.
Allen T. I., Wald D. J., 2007. Topographic slope as a proxy for seismic site-conditions (VS30) and amplification around the globe. Open-File Report 2007-1357, Reston, Virginia: U.S. Geological Survey.
Wald D. J., Quitoriano V., Heaton T. H., et al, 1999. Trinet "ShakeMaps": rapid generation of peak ground motion and intensity maps for earthquakes in southern California[J]. Earthquake Spectra, 15(3): 537-556.