精华内容
下载资源
问答
  • 具有高阶联合特征和聚类集成的大规模社交网络的隐写分析
  • 复杂网络高阶组织

    千次阅读 2019-06-23 11:36:12
    在此,我们开发了一个基于高阶连通性模式的广义聚类网络框架。该框架为获得的簇的最优性和具有数十亿条边的网络的规模提供了数学保证。该框架揭示了许多网络中的高阶组织,包括神经网络中的信息传播单元和交通网络中...

    复杂网络探究


    网络是理解和调控复杂系统的基本工具。为了挖掘网络化数据连接模式,揭示出功能组织,仅考虑简单描述符号是不够的,比如每个实体(即节点)和其他实体的相互作用数量(节点度),因为在这种简单描述符号层面,两个网络可能等同,但它们的连接结构非常不同。本文提出了一种通用的框架,基于高阶连接模式对网络进行聚类。这个高阶连接模式包含了出现在数据中的所有交互作用,通过该框架鉴别出富含某个特定高阶模式实例的网络区域。如果这种高阶连接模式是预先指定的,那么这种方法就能发现通过这个模式互连的节点, 作者等人通过该方法将线虫神经元网络中的20个神经元成功地组织在一起。
    最常见的高阶结构是小网络子图,称为模体,网络模体被认为构建了复杂网络中的块。需要说明的是:不同的网络模体揭示不同的高阶聚类,也就是说,基于不同的模体,可以发现不同的组织模式如 (图1A)所示,给出了所有三节点有方向的模体可能会显示出不同的高阶聚类(图1B),这意味着根据所选择的模体,会暴露出不同的组织模式。
    从概念上讲,给定一个网络模体M,寻找满足以下两个目标的节点的聚类S,使得S满足以下的两个目标:

    1. S中的节点尽量多的包括模体M
    2. S应该尽量避免破坏模体
      更准确的说,对于给定的模体M,本文所提出的高阶聚类框架的目标是找到一个聚类S, 使得下式取得最小值:

      其中cut(S, S):表示将整个网络分为S和S(S的补集)时被破坏的模体M的个数, vol(S)则是集合S中属于模体的节点的数量。
      在图1B中可以看出:ΦM(S)=1/min[8,10] = 1/8;(当S为5时)模体电导最小。
      找到精确的节点集S,使基序电导最小,在计算上是不可行的(12)。为了近似最小化Eq. 1,从而识别高阶簇,我们开发了一个优化框架,该框架可证明找到接近最优簇[补充材料(13)]。将基于与图(11)相关矩阵的特征值和特征向量的谱图聚类方法推广到网络的高阶结构。该方法保持了传统谱图聚类的特点:计算效率高,易于实现,并对得到的聚类的近似最优性有数学保证。具体地说,我们的高阶聚类框架识别的聚类满足基序 Cheeger不等式(14),这意味着我们的优化框架发现的聚类最多是一个偏离最优的二次因子。
      在这里插入图片描述
      图1 高阶网络结构和高阶网络聚类框架
      (A) 高阶结构由网络基序捕获。例如,这里显示了所有13个连接的三个节点的有向图形。(B)基于基序 M7的网络聚类。对于一个给定的基序M,我们的框架的目标是找到一组节点S,使基序电导最小,fM(S),我们将其定义为在S或S(13)中基序的实例中基序切割(填充三角形切割)的数量与最小节点数量的比值。在这种情况下,有一个主题削减。(C)高阶网络集群框架。给定一个图和一个感兴趣的基序(在本例中为M7),通过计算基序实例中两个节点同时出现的次数,该框架形成一个基序邻接矩阵(WM)。然后计算了基序邻接矩阵拉普拉斯变换的特征向量。由特征向量(15)的分量提供的节点的有序s产生了增大r的嵌套集Sr = {s1,,, Sr}。我们证明了基于最小基序电导的集Sr (Sr)是一个近似最优的高阶簇(13)。
      该算法(如图1C所示)有效地识别了如下节点簇S:
      (1) 给定一个网络和一个感兴趣的模体M,形成模体邻接矩阵WM,其(i, j)是模体M中节点i和j的共现计数:(WM)ij =包含节点i和j的M的实例数。
      (2) 从模体邻接矩阵的归一化拉普拉斯算子计算节点的谱排序σ。
      (3) 找到具有最小主题电导的σ前缀集S; 正式:S = argminφ 中号(S - [R ),其中S [R = {σ 1,…,σ [R }。
      算法过程描述:
      0)输入网络和给定的模体。

    1)计算矩阵Wm, 其元素(i, j)为节点i和j在模体中共现的次数,即模体包含节点i和j的个数(该矩阵为对称矩阵)。

    2)计算模体的laplacian矩阵L, L=D- Wm, 其中D为对角矩阵,Dii =Σj(WM)ij 。

    3)对laplacian矩阵进行单位化为Lw, Lw = D(-1/2)LD(-1/2), 其中D = 1/D^1/2。

    4)\sigma为对D(-1/2)z进行升序排列得到的下标序列, 其中Lw的第二小的特征向量所对应的特征值。

    5)扫描\sigma序列产生它的前缀集合, 寻找最小的模体比, 即使得上式最小的\sigma的前缀集合。

    在这里插入图片描述
    图二 线虫神经网络中的高阶簇。(A)四节点双扇形图案,在神经元网络中过表达(1)。直观地说,这个主题描述了信息从左边的节点到右边的节点的协同传播。(B)秀丽隐杆线虫中最好的高阶群基于(A)中的基序的额叶神经网络。该集群包含三个环形运动神经元(RMEL,-V和-R;青色),具有许多输出连接,作为信息源; 六个内部唇部感觉神经元(IL2DL,-VR,-R,-DR,-VL和-L;橙色),有许多传入连接,作为信息的目的地; 和四个URA运动神经元(紫色)充当中介。这些RME神经元已被提议作为神经环的先驱(21),而IL2神经元是已知的听写调节器(22)),高阶集群暴露其组织。该集群还揭示了RIH是信息处理的关键中介。该神经元具有来自三个RME神经元的传入链接,到六个IL2神经元中的五个的传出连接,以及群集中任何神经元的最大连接总数。(C)整个网络环境中高阶集群的图示。节点位置是神经元的真实二维空间嵌入。大多数信息从左向右流动,我们看到RMEV,-R,-L和RIH作为右侧神经元的信息来源。

    对于三角形模体,该算法可以扩展到具有数十亿条边的网络,而且通常只需要几个小时就可以处理如此大小的图形。在具有数十万条边的较小网络中,该算法可以处理数量为9的模体。虽然三角形模体算法的最坏情况计算复杂度为Q(m1.5),其中m为网络中的边数,但在实际应用中,该算法要快得多。通过分析16个真实世界的网络,其中边的数量m的范围从159,000到20亿,我们发现计算复杂度为Q(m1.2)。此外,该算法易于并行化,可以使用采样技术进一步提高性能(16)。 该框架可应用于有向、无向和加权网络。此外,它还可以应用于边上有正,负信息的网络,这在社交网络中很常见(朋友对敌人或信任对不信任)和代谢网络(边缘表示激活而不是抑制) (13)。该框架可用于识别领域知识表示感兴趣主题的网络中的高阶结构。在补充材料中,我们还表明,当一个领域特定的高阶模式事先不知道时,该框架还可以用来确定哪些主题对于给定网络的模块化组织是重要的(13)。这样一个通用的框架允许在许多不同的网络中使用单独的模体和一组模体来实现复杂的高阶组织结构。该框架和数学理论立即扩展到其他谱方法,如在种子节点周围找到集群的本地化算法(17)和找到重叠集群的算法(18)。要找到几个集群,可以使用来自多个特征向量的嵌入和k-means集群(13,19),也可以应用递归二分法(13,20)。

    该框架可用于识别网络的高阶模块化组织。我们将高阶聚类框架应用到Caenorhabditis elegans神经网络中,其中四节点双扇模体过度表达(图2A)(1)。然后,高阶聚类框架揭示了Caenorhabditis elegans神经网络中基序的组织。我们在额叶区发现了一个由20个神经元组成的簇,具有低双扇模体电导(图2B)。集群显示了一种控制nictation的方法。在簇内,环形运动神经元(RMEL, -V,或-R),提出了神经环的先驱(21),通过神经元RIH将信息传递到内唇感觉神经元,nictation的调节因子(22)(图2C)。我们的框架将双扇模体在这种控制机制中的重要性联系起来。
    该框架还提供了关于网络组织的新见解,而不仅仅是基于边缘的节点集群。在一个交通可达性网络(23)上的结果显示了它是如何找到必要的枢纽互联机场的(图3)。当使用两个two-hop的基序(图3A)捕获高度连接的节点和非枢纽时,这些极值出现在主光谱方向上(图3C)。[归一化基序拉普拉斯算子嵌入的第一个谱坐标与空城站城市人口呈正相关,Pearson相关系数为99%置信区间(0.33,0.53)。次级谱方向确定了北美航线网络中东西向的地理位置[与空港城市纵坐标呈负相关,Pearson相关系数为99%置信区间(0.66,0.50)]。另一方面,基于边缘的方法结合了地理和枢纽结构。例如,使用基于边缘的方法(图3D)将大型中心Atlanta嵌入到非中心Salina旁边(图3D)。
    我们的高阶网络聚类框架将网络科学中的两个基本工具模体分析和网络划分结合起来,揭示了复杂系统中新的组织模式和模块。先前在这些方面所做的工作并没有为所获得的集群提供最坏情况下的性能保证(24),也没有揭示哪些模体组织了网络(25),而是依赖于扩展网络的大小(26,27)。补充材料(13)中的理论结果也解释了为什么超图划分方法的类比之前假设的更一般,以及基于模体的聚类如何为有向图划分的特殊情况提供了一个严格的框架。最后,高阶网络集群框架通常适用于多种网络类型,包括有向网络、无向网络、加权网络和有符号网络。

    展开全文
  • 为了利用多视图表示的互补性,引入希尔伯特·施密特独立标准(HSIC)作为分集正则化,可以捕获非线性和高阶视图间关系。 由于不同的视图共享相同的标签空间,因此每个视图的自表示矩阵通过通用性正则化与公共视图...
  • 为了解决复杂信息网络中多链接高维数据聚类难以处理且效率较低问题,提出了一种新颖的基于高阶张量分析方法和模块化网络分析方法相结合的链接聚类算法(modularity-clustering-HOOI,MCHOOI)。利用模块化方法分析网络...
  • 优点整个网络拓扑的三维可视化企业威胁级别的实时全局概述智能地聚类异常泛频谱观测 - 高阶网络拓扑;特定群集,子网和主机事件可搜索的日志和事件重播历史数据设备和外部IP的整体行为的简明摘要专为业务主管和安全...

    先说说他们的产品:企业免疫系统(基于异常发现来识别威胁)

    可以看到是面向企业内部安全的!

    优点
    整个网络拓扑的三维可视化
    企业威胁级别的实时全局概述
    智能地聚类异常
    泛频谱观测 - 高阶网络拓扑;特定群集,子网和主机事件
    可搜索的日志和事件
    重播历史数据
    设备和外部IP的整体行为的简明摘要
    专为业务主管和安全分析师设计
    100%的能见度


    企业免疫系统是世界上最先进的网络防御机器学习技术。受到人体免疫系统自我学习智能的启发,这种新技术在复杂和普遍的网络威胁的新时代中,使组织自我保护方式发生了根本转变。

    人体免疫系统非常复杂,并且不断适应新形式的威胁,例如不断变异的病毒DNA。它的工作原理是了解身体的正常情况,识别和消除那些不符合正常发展模式的异常值。

    Darktrace将相同的逻辑应用于企业和工业环境。在机器学习和人工智能算法的支持下,企业免疫系统技术迭代地为网络中的每个设备和用户学习独特的“生活模式”(“自我”),并将这些见解联系起来,以发现新出现的威胁,否则这些威胁将被忽视。

    与人体免疫系统一样,企业免疫系统不需要先前的威胁或活动模式经验,以了解它可能具有威胁性。它可以在没有先验知识或签名的情况下自动工作,实时检测并抵御网络内部的微妙,隐秘攻击。

     

    https://www.engerati.com/system/files/7.18.18_machine_learning_in_the_era_of_cyber_ai.pdf

    要点摘录:

    从一开始,Darktrace就拒绝了与历史攻击相关的数据可以预测未来数据的假设。相反,Darktrace的网络AI平台使用无监督的机器学习来大规模地分析网络数据,并根据它所看到的证据进行数十亿次基于概率的计算。它不依赖于过去威胁的知识,而是独立地对数据进行分类并检测引人注目的模式。

     

     使用无人监督
    机器学习反而允许系统发现罕见的
    和以前看不见的威胁,这些威胁本身并不依赖
    不完善的训练数据集。 与历史攻击有关的数据
    不一定能防范未来的。

    它看到了而不是依赖过去威胁的知识,
    由此,它形成了对“正常”的理解
    整个网络的行为,与设备,用户有关,
    或任一实体的组,并检测与此的偏差。
    不断发展的“生活模式”可能指向一种正在发展的威胁。
    Darktrace机器学习的核心原则
    它了解网络中“正常工作”中的正常情况
    - 它不依赖于先前攻击的知识。
    它在现代的规模,复杂性和多样性上蓬勃发展
    企业,每个设备和人都是独一无二的。
    它将攻击者的创新转变为对抗他们 - 任何
    异常活动是可见的。

     

    具体技术除了无监督的异常检测,聚类技术还有用于分类的深度学习技术,要点如下:

    (1)使用的是贝叶斯网络。Darktrace使用贝叶斯概率作为其中的一部分
    独特的无监督机器学习方法。

    详细如下:

    Technical Overview
    Darktrace’s transformative approach to cyber defense
    relies on probabilistic methods developed by Cambridge
    mathematicians. Employing multiple unsupervised, supervised,
    and deep learning techniques in a Bayesian framework, the
    Enterprise Immune System can integrate a vast number
    of weak indicators of anomalous behavior to produce a single
    clear measure of threat probabilities.
    For each unique environment, Darktrace generates millions
    of interrelated mathematical models which are correlated to
    ensure that only truly anomalous behavior is detected without
    a profusion of false positives. Unlike rules-based computation,
    the results that probabilistic mathematics generate cannot
    simply be categorized as ‘yes’ or ‘no’ but instead indicate
    degrees of certainty, reflecting the ambiguities that
    inevitably exist in dynamic data environments.
    Ranking threat
    The Enterprise Immune System accounts for ambiguities by
    distinguishing between the subtly differing levels of evidence
    that characterize network data. Instead of generating the
    simple binary outputs ‘malicious’ or ‘benign’, Darktrace’s
    mathematical algorithms produce outputs marked with
    differing degrees of potential threat. This enables users of
    the system to rank alerts in a rigorous manner, and prioritize
    those which most urgently require action, while removing
    the problem of numerous false positives associated with a
    rule-based approach.
    At its core, Darktrace mathematically characterizes what
    constitutes ‘normal’ behavior, based on the analysis of a
    large number of different measures of a device’s network
    behavior, including: ——基于行为异常发现威胁。
    Server access
    Data volumes
    Timings of events
    Credential use
    Connection type, volume, and directionality
    Directionality of uploads/downloads
    File type
    Admin activity
    Resource and information requests

    也就是数据维度包括:

    服务器访问
    数据量
    活动时间
    凭证使用
    连接类型,大小和方向性
    上传/下载的方向性
    文件类型
    管理活动
    资源和信息请求

    咋感觉是用在企业数据保护场景里。。。

    (2)使用聚类技术来识别正常的设备行为。

    Darktrace采用了许多不同的聚类
    方法,包括基于矩阵的聚类,基于密度的方法
    聚类和层次聚类技术。该
    然后使用所得到的聚类来建模
    个别设备的规范行为。

    Clustering devices
    In order to model what should be considered as normal for a
    device, its behavior is analyzed in the context of other similar
    devices on the network. Darktrace leverages the power of
    unsupervised machine learning to algorithmically identify
    significant groupings of devices, a task which is impossible
    to do manually on even modestly-sized networks.
    To create a holistic image of the relationships within the
    network, Darktrace employs a number of different clustering
    methods, including matrix-based clustering, density-based
    clustering, and hierarchical clustering techniques. The
    resulting clusters are then used to inform the modeling of
    the normative behaviors of individual devices.

    (3)识别网络拓扑结构中的变化
    Network topology
    A network is far more than the sum of its individual parts,
    with much of its meaning contained in the relationships
    among its different entities. Darktrace employs many
    mathematical methods to model the multiple facets of a
    network’s topology, allowing it to track subtle changes in
    structure that are indicative of threats.(识别网络拓扑结构中的些微变化)
    One approach is based on iterative matrix methods that
    reveal important connectivity structures within the network,
    in a similar way to advanced page-ranking algorithms.
    In tandem with these, Darktrace has developed innovative
    applications of models from the field of statistical physics,
    which allows the modeling of a network’s ‘energy landscape’
    to reveal anomalous substructures that could represent
    the first symptoms of compromise.(发现异常子结构)

    (4)识别网络中异常行为,应该是根据网络协议、IP等识别异常的流量。

    Network structure
    A further important challenge in modeling the behaviors of a
    dynamically evolving network is the huge number of potential
    predictor variables. For the observation of packet traffic and
    host activity within an enterprise LAN or WAN, where both
    input and output can contain many inter-related features
    (protocols, source and destination machines, log changes,
    and rule triggers etc.协议,源和目标机器,日志更改,

    和规则触发器等), learning a sparse and consistent

    structured predictive function is crucial.——预测网络流量吗?
    In this context, Darktrace employs a cutting-edge large-scale
    computational approach to understand sparse structure
    in models of network connectivity based on applying L1-
    regularization techniques (the lasso method). This allows
    the Enterprise Immune System to discover true associations
    between different elements of a network(发现网络元素之间的关系) which can be cast
    as efficiently solvable convex optimization problems and
    yield parsimonious models.

    (5)使用递归贝叶斯估计来发现网络设备(状态、行为)的时间演进关系

    (https://blog.csdn.net/Young_Gy/article/details/78642271 感觉RBE就是求解xt和xt-1之间的关系,无非就是用到了贝叶斯概率而已

    Recursive Bayesian Estimation
    To combine these multiple analyses of network behavior, (
    生成网络设备的全面状态图)

    generating a single comprehensive picture of the state of the
    devices that comprise a network, Darktrace leverages the
    power of Recursive Bayesian Estimation (RBE). Using RBE,
    Darktrace’s mathematical models are able to constantly
    adapt to new information as it becomes available to the
    system. Continually recalculating threat levels in the light
    of new data, the Enterprise Immune System can discern
    significant patterns in data flows indicative of attacks, where
    conventional signature-based methods see only chaos.传统的签名方法只能看到混乱。

    (6)他们也使用了深度学习的分类技术

    Darktrace & Deep Learning
    Darktrace also uses deep learning to enhance modeling
    processes. Deep learning is a subset of machine learning
    that uses the cascading interactions of layered mathematical
    processes – known as neural nets – to give intelligent
    systems a higher degree of insight. Multi-layered neural
    nets can improve the detection and remediation of certain
    threats, for example, in the identification of DNS anomalies,
    which are less effectively tracked by other machine learning
    methods. Darktrace’s deep learning system assigns a score
    to all DNS data from a device, with the purpose of identifying
    suspicious activity even faster.(识别DNS异常,其他机器学习不太有效地跟踪它们。 分析来自设备的所有DNS数据,用于识别

    DNS可疑活动。

    Darktrace also clusters devices into peer groups, based on
    its own understanding of how those devices behave, and
    uses supervised learning to uncover sequences of breaches,
    unusual patterns, or to detect aberrant activity at a higher,(
    对这些设备的行为方式的理解,以及使用有监督的学习来发现违规行为,

    不寻常的模式,或检测更高的异常活动

    more holistic level. For example, the WannaCry ransomware
    was easily detected by Darktrace as it breaches a number of
    different ‘pattern of life’ models. Using supervised learning,
    Darktrace can replicate the process of a human interpreting
    various sets of breaches for a device or network over time
    and so present correlated alerts instead of a multitude.
    Supervised learning is also used by Darktrace to understand
    more about the environment, without a human having to label
    it. By observing millions of different smartphones, for example,
    Darktrace gets faster and faster at identifying a new device as a
    ‘smartphone’, and even what type of smartphone it is.
    Using deep and supervised techniques to complement its core
    unsupervised machine learning algorithms, Darktrace builds
    up unique, contextual knowledge about network activity and
    integrates the insights of our global deployments to improve
    threat detection.
    Finally, Darktrace also uses deep learning techniques to
    automate repetitive and time-consuming tasks carried out
    during investigation workflows. By analyzing how seasoned
    cyber analysts interact with the Threat Visualizer, triage
    alerts, and leverage third-party sources, Darktrace is able
    to replicate those expert behaviors and automate certain
    analyst functions.(
    Darktrace还使用深度学习技术

    自动执行重复且耗时的任务,这个是要干嘛?没太明白

     

    Darktrace’s technology has become a vital tool for security
    teams attempting to understand the scale of their network,
    observe levels of activity, and detect areas of potential
    weakness.

    转载于:https://www.cnblogs.com/bonelee/p/9818061.html

    展开全文
  • 分析计算和仿真结果表明,这种拟议网络的平均度小于5,平均聚类系数较(即使对于200万规模的网络,其平均聚类系数也大于0.5),并且平均最短路径长度的增长慢得多多数小世界网络模型的对数增长。
  • 几何图的高阶聚类;用于网络可视化的在线非均匀分时方法;EPNE:保留演化模式的网络嵌入;管理数据注释项目的最佳实践;COVID-19的人力和财务成本;利用生成对抗网络的图稀疏化;揭露大型工程项目网络的脆弱性;演化网络...
    • 识别针对连续攻击的网络系统临界点预警指标;
    • 几何图的高阶谱聚类;
    • 用于网络可视化的在线非均匀分时方法;
    • EPNE:保留演化模式的网络嵌入;
    • 管理数据注释项目的最佳实践;
    • COVID-19的人力和财务成本;
    • 利用生成对抗网络的图稀疏化;
    • 揭露大型工程项目网络的脆弱性;
    • 演化网络中基于草图的社区检测;
    • 气候变化对天文观测的影响;
    • 天文研究所对应对气候危机挑战的看法;
    • 大型天文学会议的碳足迹;

    识别针对连续攻击的网络系统临界点预警指标

    原文标题: Identifying early-warning indicators of tipping points in networked systems against sequential attacks

    地址: http://arxiv.org/abs/2009.11322

    作者: Utkarsh Gangwal, Udit Bhatia, Mayank Singh, Pradyumn Kumar Pandey, Deepak Kamboj, Samrat Chatterjee

    摘要: 诸如社会网络,交通,电力和供水基础设施以及生物和生态系统之类的广泛系统中的网络结构可能会显示出临界阈值或临界点,超过临界阈值或临界点,系统功能将遭受不成比例的损失。引爆点和此类系统的故障容忍度日益引起人们的关注,因为引爆点可能会导致预期功能突然丧失,并可能导致不可恢复的状态。尽管已经对网络系统的攻击容忍度进行了深入研究,以研究源于单个故障点的破坏,但在某些情况下,现实世界中的系统可能会在多个位置同时发生或突然发生并发破坏。使用来自美国空域机场网络和印度铁路网络以及随机网络作为系统原型类别的开源数据,我们研究了它们对各种规模的综合攻击策略的响应。对于这两种类型的网络,我们观察到警告区域的存在,它们是临界点的先兆。此外,我们观察到网络健壮性与同时分发的大小之间的统计上显著的关系,这可以概括为随机故障和针对性攻击具有不同拓扑属性的网络。我们证明了我们的方法可以确定不同规模的网络在遭受大小变化的干扰时的整体鲁棒性特征。我们的方法可以用作理解真实系统中临界点的范例,并且该原理可以扩展到其他学科,以解决风险管理和弹性的关键问题。

    几何图的高阶谱聚类

    原文标题: Higher-Order Spectral Clustering for Geometric Graphs

    地址: http://arxiv.org/abs/2009.11353

    作者: Konstantin Avrachenkov, Andrei Bobu, Maximilien Dreveton

    摘要: 本文致力于聚类几何图。虽然标准谱聚类通常对几何图无效,但我们提出了一种有效的概括,我们称之为高阶谱聚类。它在概念上类似于经典的谱聚类方法,但用于划分与高阶特征值相关的特征向量。我们为一类称为软几何块模型的几何图建立了该算法的弱一致性。对该算法进行少量调整即可提供强大的一致性。我们还表明,即使对于中等大小的图,我们的方法在数值实验中也是有效的。

    用于网络可视化的在线非均匀分时方法

    原文标题: An Online and Nonuniform Timeslicing Method for Network Visualisation

    地址: http://arxiv.org/abs/2009.11422

    作者: Jean R. Ponciano, Claudio D. G. Linhares, Elaine R. Faria, Bruno A. N. Travencolo

    摘要: 时态网络的可视化分析是了解网络动态性的有效方法,有助于识别模式,异常和其他网络属性,从而快速做出决策。但是,由于边重叠,实际网络中的数据量可能会导致布局具有很高的视觉混乱度。这在所谓的流网络中尤其重要,在流网络中,边连续到达(在线)并且处于非平稳分布。可以控制所有三个网络维度,即节点,边和时间,以减少此类混乱并提高可读性。本文提出了一种在线且非均匀的分时方法,从而考虑了底层网络结构并解决了流网络分析问题。我们使用两个真实世界的网络进行了实验,以比较我们的方法与统一和不统一的时间分配策略。结果表明,我们的方法会自动选择可在事件突发期间有效减少视觉混乱的时间片。结果,基于全局时间模式识别的决策变得更快,更可靠。

    EPNE:保留演化模式的网络嵌入

    原文标题: EPNE: Evolutionary Pattern Preserving Network Embedding

    地址: http://arxiv.org/abs/2009.11510

    作者: Junshan Wang, Yilun Jin, Guojie Song, Xiaojun Ma

    摘要: 信息网络无处不在,是建模关系数据的理想选择。网络稀疏和不规则,网络嵌入算法引起了许多研究人员的注意,他们提出了许多静态网络中的嵌入算法。然而在现实生活中,网络会随着时间不断发展。因此,演化模式,即节点随着时间的发展如何发展,将成为嵌入网络中静态结构的有力补充,而静态网络的工作很少。在本文中,我们提出了EPNE,这是一种时态网络嵌入模型,可以保留节点局部结构的演化模式。特别是,我们分析了具有和不具有周期性的演化模式,并设计了相应的设计策略,以便基于因果卷积在时频域中对这种模式进行建模。此外,我们提出了一种时间目标函数,该函数与邻近函数同时进行了优化,从而保留了时间和结构信息。通过适当的时间信息建模,我们的模型能够在各种预测任务中胜过其他竞争方法。

    管理数据注释项目的最佳实践

    原文标题: Best Practices for Managing Data Annotation Projects

    地址: http://arxiv.org/abs/2009.11654

    作者: Tina Tseng, Amanda Stent, Domenic Maida

    摘要: 注释是通过人工来标记数据。批注对于现代机器学习至关重要,并且彭博社已经积累了多年的批注经验。该报告从彭博全球数据部门的30多位经验丰富的注释项目经理那里收集了应用注释项目的丰富智慧。

    COVID-19的人力和财务成本

    原文标题: Human and financial cost of COVID-19

    地址: http://arxiv.org/abs/2009.11660

    作者: Nick James, Max Menzies

    摘要: 本文分析了92个国家/地区COVID-19大流行的人力和财务成本。我们将各国股票市场动态与累积COVID-19病例和死亡人数以及新病例轨迹进行比较。首先,我们研究了累积病例和死亡的多元时间序列,特别是关于其随时间变化的结构。我们揭示了病例和死亡时间序列以及时间序列结构改变的关键日期之间的相似性。接下来,我们对新的病例时间序列进行分类,展示轨迹的五种特征类别,并量化它们之间在疾病波行为方面的差异。最后,我们表明,国家的股票市场表现与其成功管理COVID-19之间没有任何关系。每个国家的股指对国内或全球的大流行状况都没有反应。取而代之的是,这些指数是高度统一的,大多数波动发生在3月。

    利用生成对抗网络的图稀疏化

    原文标题: Graph Sparsification with Generative Adversarial Network

    地址: http://arxiv.org/abs/2009.11736

    作者: Hang-Yang Wu, Yi-Ling Chen

    摘要: 图稀疏化旨在减少网络的边数量,同时保持给定任务的准确性。在这项研究中,我们提出了一种称为GSGAN的新方法,该方法能够稀疏网络以进行社区检测任务。 GSGAN能够刻画原始图中未显示但相对重要的那些关系,并创建人为的边来反映这些关系并进一步提高社区检测任务的效率。我们采用GAN作为学习模型,并指导生成器生成能够刻画网络结构的随机游动。具体而言,在训练阶段,除了判断随机游走的真实性外,鉴别器还同时考虑节点之间的关系。我们设计了一个奖励函数来指导生成器创建包含有用的隐藏关系信息的随机游动。然后将这些随机游走组合起来,以形成一个新的社会网络,该社会网络对于社区检测是有效的。实际网络的实验表明,所提出的GSGAN比基线要有效得多,并且GSGAN可以应用于社区检测的各种聚类算法,并对其有所帮助。

    揭露大型工程项目网络的脆弱性

    原文标题: Uncovering the fragility of large-scale engineering project networks

    地址: http://arxiv.org/abs/2009.11752

    作者: Marc Santolini, Christos Ellinas, Christos Nicolaides

    摘要: 众所周知,工程项目难以按时完成,通常将理论上的项目延误解释为在相互依存的活动之间传播。在这里,我们使用一个新颖的数据集,该数据集由来自14个不同的大型工程项目的活动网络组成,以揭示影响及时完成项目的网络属性。我们提供了活动偏差的传染性的第一个经验证据,其中单个活动的传递中的扰动会影响多达4个下游的活动,从而导致较大的扰动级联。我们进一步表明,扰动聚类显著影响项目的整体延迟。最后,我们发现效果不佳的项目在高程节点上具有最高的扰动,这可能导致最大的级联,而性能良好的项目在低程节点上具有扰动,从而导致局部级联。总而言之,这些发现为网络科学框架铺平了道路,该框架可以从实质上增强大型工程项目的交付。

    演化网络中基于草图的社区检测

    原文标题: Sketch-based community detection in evolving networks

    地址: http://arxiv.org/abs/2009.11835

    作者: Andre Beckus, George K. Atia

    摘要: 我们考虑在时变网络中进行社区检测的方法。此方法的核心是维护一个小的草图,以刻画在整个网络的每个快照中发现的基本社区结构。我们演示了如何使用草图来明确识别通常在网络演进过程中发生的六个关键社区事件:增长,收缩,合并,分裂,出生和死亡。基于这些检测技术,我们制定了一种社区检测算法,该算法可以处理同时显示所有过程的网络。基于草图的算法提供的一个优势是对大型网络的有效处理。尽管检测整个图中的事件可能在计算上很昂贵,但是草图的小尺寸允许快速评估更改。第二个优点出现在包含大小不成比例的群集的网络中。构造草图以使每个群集具有相等的表示,从而减少估计中丢失小群集的可能性。我们基于随机块模型提出了一个新的标准化基准,该模型对节点的添加和删除以及社区的诞生和死亡进行建模。与现有基准一起使用时,此新基准将提供涵盖所有六个社区事件的全面测试套件。我们提供了一组数值结果,证明了我们的方法在运行时和处理小型集群方面的优势。

    气候变化对天文观测的影响

    原文标题: The impact of climate change on astronomical observations

    地址: http://arxiv.org/abs/2009.11779

    作者: Faustine Cantalloube, Julien Milli, Christoph Böhm, Susanne Crewell, Julio Navarrete, Kira Rehfeld, Marc Sarazin, Anna Sommani

    摘要: 气候变化正在影响并将越来越影响天文观测。在本文中,我们调查了一些关键天气参数在天文观测质量中的作用,并分析了它们的长期趋势(超过30年),以便掌握气候变化对当前和未来观测的影响。在这项初步研究中,我们专门分析了四个参数,即温度,表层湍流,射流层的风速和湿度。分析是利用来自欧洲南部天文台(ESO)的超大型望远镜(VLT)的数据进行的,该望远镜位于地球上最干旱的地方之一的智利阿塔卡马沙漠的塞罗帕拉纳尔。为了完善Paranal所安装的各种传感器的数据,我们使用了第五代和20世纪欧洲中心的中程天气预报(ECMWF)对全球气候,ERA5(从1980年到现在)和ERA20C(从1900年到现在)的大气再分析。 2010年),我们在Paranal天文台位置进行了插值。此外,在最坏的气候变化共同社会经济途径(SSP5-8.5)情景下,我们还使用耦合模型比较项目第六阶段(CMIP6)多模型集合探索了该地区的气候预测。需要进行进一步调查,以更好地了解变化的根本机制,并评估影响的严重性。

    天文研究所对应对气候危机挑战的看法

    原文标题: An astronomical institute’s perspective on meeting the challenges of the climate crisis

    地址: http://arxiv.org/abs/2009.11307

    作者: Knud Jahnke, Christian Fendt, Morgan Fouesneau, Iskren Georgiev, Tom Herbst, Melanie Kaasinen, Diana Kossakowski, Jan Rybizki, Martin Schlecker, Gregor Seidel, Thomas Henning, Laura Kreidberg, Hans-Walter Rix

    摘要: 分析天文研究所的温室气体排放是减少其对环境的影响的第一步。在这里,我们分解了海德堡马克斯·普朗克天文学研究所的排放量,并提出了减少排放的措施。

    大型天文学会议的碳足迹

    原文标题: The carbon footprint of large astronomy meetings

    地址: http://arxiv.org/abs/2009.11344

    作者: Leonard Burtscher, Didier Barret, Abhijeet P. Borkar, Victoria Grinberg, Knud Jahnke, Sarah Kendrew, Gina Maffey, Mark J. McCaughrean

    摘要: 欧洲天文学会的年会于2019年在法国里昂举行,但由于COVID-19大流行,该会议于2020年在网上举行。虚拟会议的碳足迹大约是面对面会议的碳足迹的3000倍,这为鼓励更具生态意识的会议提供了鼓励。

    声明:Arxiv文章摘要版权归论文原作者所有,机器翻译后由本人进行校正整理,未经同意请勿随意转载。本系列在公众号“网络科学研究速递”(netsci)和个人博客进行同步更新。

    5366646dc930dcf7a5564c0ed1909eb9.png
    展开全文
  • 近年来,复杂网络的可控性引起了研究人员的广泛关注。 主要贡献来自Liu等。... 此外,我们研究了确定性复杂网络中驱动程序节点的特征,发现驱动程序节点倾向于避免高阶节点,但具有较高的聚类系数。
  • 网络是理解和建模物理、生物、神经科学、工程和社会科学中的复杂系统的基本工具。众所周知,许多网络具有丰富的低阶连接...结果表明,网络呈现出丰富的高阶组织结构,这些组织结构通过基于高阶连接模式的聚类显示出来。
  • 代码以斯坦福大学官网上的铁线虫的神经元网络作为实验数据集对作者提出的复杂网络高阶聚类进行仿真,代码可以直接在MATLAB平台上运行,实验结果表明用三个节点的motif作为基本单元,网络的性能更强,导度更小,也...
  •  最近阅读了Benson等人发表在science上的论文《Higher-order organization of complex networks》,在该论文中作者提出了一种通用的框架,可在网络中基于高阶连接模式进行聚类。 和以往接触的聚类方法(K-means, ...

    0.前言:

           最近阅读了Benson人发表在science上的论文《Higher-order organization of complex networks》,在该论文中作者提出了一种通用的框架,可在网络中基于高阶连接模式进行聚类。 和以往接触的聚类方法(K-means, 层次聚类, DBSCAN, 或者OPRICS)等不同的是: K-means等在对item进行聚类的时候,使用的是item的特征, 并且item之间是没有连边的。 比如,对于二维平面上的点进行聚类, 那么对于每一个点来说有两个特征(即x和y),或者在MovieLen数据集上对用户进行聚类, 那么每个用户的特征就是看过的电影。而在该论文中提出的高阶聚类框架是针对连通的网络(甚至要在运行算法之前做预处理,去除掉网络中的孤立的点)。


    1 . 网络是理解和调控复杂系统基本工具。为了挖掘网络化数据连接模式,揭示出功能组织,仅考虑简单描述符号是不够的,比如每个实体(即节点)其他实体的相互作用数量节点度)因为在这种简单描述符号层面,两个网络可能等同,但它们的连接结构非常不同。本文提出了一种通用的框架,基于高阶连接模式对网络进行聚类。这个高阶连接模式包含了出现在数据中的所有交互作用,通过该框架鉴别出富含某个特定高阶模式实例的网络区域。如果这种高阶连接模式是预先指定的,那么这种方法就能发现通过这个模式互连的节点, 作者等人通过该方法将线虫神经元网络中的20个神经元成功地组织在一起。 


    2 . 最常见的高阶结构是小网络子图,称为模体,网络模体被认为构建了复杂网络中的块。需要说明的是:不同的网络模体揭示不同的高阶聚类,也就是说,基于不同的模体,可以发现不同的组织模式。下图给出了所有的三节点的有方向的模体:(13种)




    3 .算法思想:

    对于给定网络和感兴趣的模体M,寻找满足以下两个目标的节点的聚类S,使得S满足以下的两个目标:

                      1. S中的节点尽量多的包括模体M

                      2.  S应该尽量避免破坏模体

    更准确的说,对于给定的模体M,本文所提出的高阶聚类框架的目标是找到一个聚类S, 使得下式取得最小值: 

                           

    其中cut(S, ~S):表示将整个网络分为S和~S(S的补集)时被破坏的模体M的个数, vol(S)则是集合S中属于模体的节点的数量。

    4. 算法过程描述:

         0)输入网络和给定的模体。

         1)计算矩阵Wm, 其元素(i, j)为节点i和j在模体中共现的次数,即模体包含节点i和j的个数(该矩阵为对称矩阵)。

         2)计算模体的laplacian矩阵L, L=D- Wm, 其中D为对角矩阵,Dii =Σj(WM)ij 。

           3)对laplacian矩阵进行单位化为Lw, Lw = D^(-1/2)LD^(-1/2), 其中D = 1/D^1/2。

           4)\sigma为对D(-1/2)z进行升序排列得到的下标序列, 其中Lw的第二小的特征向量所对应的特征值。

         5)扫描\sigma序列产生它的前缀集合, 寻找最小的模体率, 即使得上式最小的\sigma的前缀集合。 

    针对下左图的网络基于右边给出的模体进行聚类得到的\sigma的排序如下:

                    

    5. 应用:

    该框架可以应用于有向图,无向图和加权图中。也可以应用于边上有正,负信息的网络,这是在社会网络中常见的类型(例如是敌是友, 信任还不信任)或者在新城代谢网络中表现为活跃还是抑制。在特定的领域中,对感兴趣的模体,可是使用该框架获得网络中的高阶结构。当某个特定领域中的高阶模式未知,该框架也可用于判断哪个模体对于给定网络的模块化结构是重要的。


         在秀丽隐杆线虫神经元网络上使用高阶聚类框架,在该网络中,四节点双扇形模体被过度表达,这个模体描述了从左边节点向右边节点传递合作繁殖信息的过程。该框架基于上述模体发现了由20个神经元组成的聚类。该聚类展示了瞬眼调节器被调控的一种途径。这个聚类包含了作为信源的3个带有多个外向连接的环状运动神经元(REML-V,和-R),6作为信息目的地的带有多个内向连接的内唇感觉神经元(IL2DL-VR-R-DR,和-L),4个 作为中介的URA运动神经元。该高阶聚类揭示了它们的组织。

    环状运动神经元通过RIH传递信息给内唇感觉神经元。下图1为模体,图2为聚类的结果,图3为聚类在网络中的真实位置。



    (所有图片来源于论文, 论文下载地址:http://science.sciencemag.org/content/353/6295/163)




    展开全文
  •   网络中,高阶链接模式是控制和调节复杂系统的基本结构,大部分高阶结构是指一个小的子图,这种小的子图是复杂系统的建筑块。例如,正反馈回路是调控网络的关键要素,三元组是社交网络的关键,双向开三角结构是...
  • 阅读论文AGC,利用高阶结构信息来提升聚类的效果。本文从图信号处理角度来理解GNN,增强聚类效果。目标还是将节点划分成m个聚类。 文章目录一、Introduction原理步骤二、算法提到了一些预备条件一阶图卷积 一、...
  • 推荐算法总结(召回+排序+工程化)

    千次阅读 2020-02-25 23:49:17
    文章目录内容召回word2vecLDAFastTextTextCNN行为召回ItemCFUserCF关联规则聚类协同矩阵分解隐语义LFM图召回PersonalRank深度学习召回因子分解排序FMFFM树模型排序GBDT+LR深度模型排序DNN特征高阶组合低阶特征单独...
  • 1.2.1 DeepWalk:通过随机游走保留了高阶属性 https://blog.csdn.net/qq_32294855/article/details/89006078 1.2.2 Node2Vec:深度优先和宽度优先 1.2.3暂缓 1.2.4暂缓 1.3基于深度学习 2. 图嵌入的应用 网络压缩、...
  • 集体智慧编程中文版

    2015-12-08 21:08:28
    最近邻算法 练习 第9章 高阶分类:核方法与SVM 婚介数据集 数据中的难点 基本的线性分类 分类特征 对数据进行缩放处理 理解核方法 支持向量机 使用LIBSVM 基于Facebook的匹配 练习 第10章 寻找独立特征 搜集一组...
  • 第9章 高阶分类:核方法与 SVM 197 婚介数据集 197 数据中的难点 199 基本的线性分类 202 对数据进行缩放处理 209 理解核方法 211 支持向量机 215 使用 LIBSVM 217 基于 Facebook 的匹配 219 第10章 寻找...
  • 普通程序员,不学算法,也可以成为大神吗? 对不起,不行。 相信很多程序员在第一节计算机课...**特别是高阶算法,如搜索、寻路、遗传、聚类、神经网络等……如果你能把这些问题搞懂,那一份不错的 Offer 就基本到手
  • 观看了剩余的4个视频,内容包括积分与高阶导数。 B站播放列表在这里。 随机森林 | 第33天 随机森林 | 第34天 随机森林实现 什么是神经网络? | 深度学习,第1章 | 第 35天 Youtube频道3Blue1Brown中有精彩的...

空空如也

空空如也

1 2 3 4 5
收藏数 86
精华内容 34
关键字:

高阶网络聚类