2. 华东师范大学 计算中心, 上海 200062
2. The Computer Center, East China Normal University, Shanghai 200062, China
近些年来, 学者们对复杂网络的研究正处于火热阶段, 其思想已经渗透到各学科研究之中.现实生活中的许多行为都可以抽象成复杂网络, 比如交通网、社交网、蛋白质基因相互作用网等[1].几乎每一个网络中, 都存在着一个或者多个关键节点并在网络中占有非常重要的位置, 如果删除这些关键节点, 这个网络就有可能在结构和稳定性上受到很大的影响[2].例如, 在社交网络中, 如果删除了其中重要的节点, 那么消息的传播会受到影响, 但同样也可以通过删除这些节点来抑制谣言的传播.所以, 挖掘网络中的关键节点对于认识网络特征、了解网络传播过程、保持网络结构等有着非常重要的意义.
识别网络中的关键节点存在很多种算法.大多数的算法都是利用网络的结构信息, 为每个节点分配一个值, 然后根据这个值决定节点的排名顺序[2].最容易想到的就是利用节点的局部特征度数(Degree Centrality, DC)(DC算法, 又称为度中心算法)来判断节点的重要性[3], 这是判断关键节点最直观简单的方法.但是利用节点局部特征的算法具有一定的缺陷, 比如忽略了节点邻居的作用以及整个网络的拓扑结构, 仅考虑单一因素使得节点重要性评判的依据不够充分.鉴于节点的重要程度和其邻居节点存在一定的联系, 有些学者提出了介数中心性[4]、特征向量中心性[5]、接近度中心性[6]等, 还有人考虑将PageRank算法[7]、H-index算法[8]以及累计提名算法[9]用于节点重要性排序中.介数中心性、特征向量中心性以及接近度中心性均从网络的全局角度出发, 在评估节点重要性方面有了明显的效果, 但这类算法时间复杂度都非常高, 不适用于大规模的网络. PageRank算法最初用于网页排序, 该算法认为节点的重要性由指向它的其他节点的数量及重要性决定, 算法效果较好但是很容易陷入悬挂节点, 并且不适用于节点连接紧密的网络. H-index算法通过统计论文引用数来评价学者的学术能力, 将该算法运用在节点重要性排序中也取得了良好的效果.累计提名算法是利用节点声望的迭代评判节点的重要程度, 但以上两种算法均未从网络的拓扑结构综合地考虑节点的重要性. Chen[10]等人提出了LocalRank算法, 该算法不仅利用了直接邻居的信息, 还利用了四阶邻居信息, 虽然算法效果较好, 但是忽略了信息传播的过程.随着熵理论在复杂网络复杂性及不确定性研究中的应用, 文献[11]的作者将熵理论应用到关键节点识别中, 并取得了良好的效果.由于网络的结构和信息的传播有关, Kitsak[12]等人认为节点在网络中的位置对节点的重要性有一定的影响, 于是提出将
大多数算法仅从单方面改进传统的
对于任一无权网络, 一般用
一个节点的度定义为其邻居节点的个数, 即
(1) 首先计算网络中节点的度数, 删除节点度数为1的节点及其相连的边, 更新网络再重新计算度数, 再删除度为1的节点, 直到网络中不存在度数为1的节点, 记这些删除的节点
(2) 递归地删除网络中节点度数小于等于2的节点及其相连的边, 之后更新网络并重新计算度, 记
(3) 对于更新之后的网络, 让度数为
加权网络中存在边权的概念, 边权就是一条边两个节点的度数之和, 即边的权重.边权用
$ \begin{align} \omega _{ij} =k_i +k_j. \end{align} $ | (1) |
与边权相对应的是点权, 又叫做点强度(Vertex Strength).点权定义为与它有关联的边权的总和, 为
$ \begin{align} {S}_i =\sum\limits_{j\in {T}_i }^N {\omega _{ij} }, \end{align} $ | (2) |
其中,
针对传统
$ \begin{align} k_m =k_i +\lambda \times S_i. \end{align} $ | (3) |
计算每个节点的混合
为了进一步提升算法识别关键节点的能力, 基于关键节点与位于网络核心的节点有更多连接的思想, 所以本文在计算目标节点重要性时加入该节点两跳内节点的
$ \begin{align} \mathrm{E}K\mathrm{SDN}=K\mathrm s_i \times k_i +\sum\limits_{j\in \Gamma _i }^N {Ks_j \times k_j }, \end{align} $ | (4) |
其中,
为了比较各种算法的差异, 对于图 1给出的简单网络模型, 本文分别用几种算法对其分解, 进而获得了节点重要性的排序结果并对结果进行了分析.
表 1所示的是节点重要性排序结果.从表中可以看出前4种算法都存在大量的拥有相同值的节点; 本文的E
每个网络的拓扑结构不同, 本文实验将在4个真实网络中进行: ① Karate Club网络是一个社会网络, 它是经过对美国一个大学空手道俱乐部观测而构建的[18]; ② NetScience网络是一个从事网络理论和实验科学家合著的关系网络[19]; ③ Email网络是西班牙一所大学的电子邮件网络, 包含教师、研究生、技术和管理人员[20]; ④ Blogs网络是联合美国两个政治阵营的博客构建的[21]. 表 2显示了这4种网络的一些统计特性, 其中,
本文使用文献[15]中的单调性指标(Monotonicity)评估算法效果, 因为该指标量化了排序结果内节点分数的关系, 所以选取单调性指标评估不同算法的分辨率, 且分辨率代表了节点的传播能力.在任一算法中, 网络中的每个节点均会分配到对应的分数, 如果大多数节点的得分不同, 则说明节点重要性划分得更加细腻.得分相同的节点越少, 则单调性指标越大.单调性指标的定义为
$ \begin{align} M(R)=\left[ {1-\frac{\sum\limits_{r\in R} {n_r (n_r -1)} }{n(n-1)}} \right]^2, \end{align} $ | (5) |
其中,
在关键节点识别研究中, 通常会选择3种模型来模拟信息传播: SI(Susceptible-Infectious)模型、SIS(Susceptible-Infectious-Susceptible)模型以及SIR(Susceptible-Infectious-Recovered)模型.这3种模型均是度量节点传播影响力时广泛使用的工具.由于SIR模型广泛运用在描述人群中的信息和谣言传播过程中, 所以本文使用该模型来评估节点的传播能力, 从而衡量网络中节点的重要性[22-23].在SIR模型中, 主要存在3种个体:易感染个体
初始的时候, 在网络中随机选择一个或者多个节点作为感染个体
为了进一步验证算法的性能, 将SIR仿真模拟的实验结果和算法的结果进行比较.本文采用肯德尔相关系数(通常用希腊字母
$ \begin{align} \tau \left( {X, Y} \right)=\frac{c-d}{\frac{1}{2}n(n-1)}, \end{align} $ | (6) |
其中,
本文的实验均是在Windows10操作系统下进行, 开发语言为python.一共进行了3项实验, 实验结果与分析如下.
实验一:为了进一步了解排名结果的分布情况, 本文画出了4种网络中各种算法的累积分布函数(Cumulative Distribution Function, CDF)图像, 如图 2所示. CDF图像中横坐标表示节点得分, 纵坐标表示对应横坐标值所出现的概率.从图 2中可以看出:在前两种网络(Karate Club和NetScience)中, E
实验二:实验一的结果仅仅展示了各种算法的排名分布情况, 但是不能直观地反映出排名的内部情况.由于单调性指标能够很好地考虑排序结果的内部情况, 因此, 表 3给出了各种算法对应不同网络的单调性指标.从表 3中可以看出, 原始
实验三:从图 3中得到以下信息. Karate Club网络中, 各个算法的波动都比较大, MDD算法与w
关键节点识别在复杂网络的研究中具有重要的理论和实践意义.本文提出了E
[1] |
LAWYER G. Understanding the influence of all nodes in a network[J]. Scientific Reports, 2015(5): 8665. |
[2] |
LÜ L Y, CHEN D B, REN X L, et al. Vital nodes identification in complex networks[J]. Physics Reports, 2016, 650: 1-63. DOI:10.1016/j.physrep.2016.06.007 |
[3] |
BONACICH P. Factoring and weighting approaches to status scores and clique identification[J]. Journal of Mathematical Sociology, 1972, 2(1): 113-120. DOI:10.1080/0022250X.1972.9989806 |
[4] |
FREEMAN L C. A set of measures of centrality based on betweenness[J]. Sociometry, 1977, 40(1): 35-41. DOI:10.2307/3033543 |
[5] |
BONACICH P. Some unique properties of eigenvector centrality[J]. Social Networks, 2007, 29(4): 555-564. DOI:10.1016/j.socnet.2007.04.002 |
[6] |
LATORA V, MARCHIORI M. Efficient behavior of small-world networks[J]. Physical Review Letters, 2001, 87(19): 198701. DOI:10.1103/PhysRevLett.87.198701 |
[7] |
WENG J S, LIM E P, JIANG J, et al. TwitterRank:finding topic-sensitive influential twitterers[C]//Proceedings of the 3rd International Conference on Web Search and Web Data Mining, WSDM 2010. ACM, 2010:261-270. https://www.researchgate.net/publication/221520147_Twitterrank_Finding_Topic-Sensitive_Influential_Twitterers
|
[8] |
HIRSCH J E. An index to quantify an individual's scientific research output[J]. Proceedings of the National Academy of Sciences of the United States of America, 2005, 102(46): 16569-16572. DOI:10.1073/pnas.0507655102 |
[9] |
POULIN R, BOILY M C, MâSSE B R. Dynamical systems to define centrality in social networks[J]. Social Networks, 2000, 22(3): 187-220. DOI:10.1016/S0378-8733(00)00020-4 |
[10] |
CHEN D B, LÜ L Y, SHANG M S, et al. Identifying influential nodes in complex networks[J]. Physica A:Statistical Mechanics and its Applications, 2012, 391(4): 1777-1787. DOI:10.1016/j.physa.2011.09.017 |
[11] |
FEI L G, DENG Y. A new method to identify influential nodes based on relative entropy[J]. Chaos Solitons & Fractals, 2017, 104: 257-267. |
[12] |
KITSAK M, GALLOS L K, HAVLIN S, et al. Identification of influential spreaders in complex networks[J]. Nature Physics, 2010, 6(11): 888-893. DOI:10.1038/nphys1746 |
[13] |
ZENG A, ZHANG C J. Ranking spreaders by decomposing complex networks[J]. Physics Letters A, 2013, 377(14): 1031-1035. DOI:10.1016/j.physleta.2013.02.039 |
[14] |
WEI B, LIU J, WEI D J, et al. Weighted k-shell decomposition for complex networks based on potential edge weights[J]. Physica A:Statistical Mechanics and its Applications, 2015, 420: 277-283. DOI:10.1016/j.physa.2014.11.012 |
[15] |
BAE J, KIM S. Identifying and ranking influential spreaders in complex networks by neighborhood coreness[J]. Physica A:Statistical Mechanics and its Applications, 2014, 395(4): 549-559. |
[16] |
YANG F, ZHANG R S, YANG Z, et al. Identifying the most influential spreaders in complex networks by an Extended Local K-Shell Sum[J]. International Journal of Modern Physics C, 2017, 28(1): 925-214. |
[17] |
RUAN Y R, LAO S Y, XIAO Y D, et al. Identifying influence of nodes in complex networks with coreness centrality:Decreasing the impact of densely local connection[J]. Chinese Physics Letters, 2016, 33(2): 149-152. |
[18] |
ZACHARY W W. An information flow model for conflict and fission in small groups[J]. Journal of Anthropological Research, 1977, 33(4): 452-473. DOI:10.1086/jar.33.4.3629752 |
[19] |
NEWMAN M E J. Finding community structure in networks using the eigenvectors of matrices[J]. Physical Review E:Statistical Nonlinear & Soft Matter Physics, 2006, 74(3 Pt 2): 036104. |
[20] |
LESKOVEC J, LANG K J, DASGUPTA A, et al. Community structure in large networks:Natural cluster sizes and the absence of large well-defined clusters[J]. Internet Mathematics, 2009, 6(1): 29-123. DOI:10.1080/15427951.2009.10129177 |
[21] |
GUIMERÀ R, DANON L, DÍAZ-GUILERA A, et al. Self-similar community structure in a network of human interactions[J]. Physical Review E:Statistical Nonlinear & Soft Matter Physics, 2003, 68(6 Pt 2): 065103. |
[22] |
NWEMAN M E. Spread of epidemic disease on networks[J]. Physical Review E:Statistical Nonlinear & Soft Matter Physics, 2002, 66(1 Pt 2): 016128. |
[23] |
BALKEW T, MODEL S, RATE R R, et al. The SIR Model When S(t) is a Multi-Exponential Function[J]. Dissertations & Theses-Gradworks, 2010, 14(6): 50-50. |
[24] |
WANG X Y. An image blocks encryption algorithm based on spatiotemporal chaos[J]. Nonlinear Dynamics, 2012, 67(1): 365-371. DOI:10.1007/s11071-011-9984-7 |