精华内容
下载资源
问答
  • ICLR会议

    2021-03-15 11:40:44
    ICLR 简介 ICLR,全称为「International Conference on Learning Representations」(国际学习表征会议),2013 年开始每年举办一次,2020年将举办第八届会议,该会议已经得到学术研究者们的广泛认可,被认为是深度...

    ICLR 简介
    ICLR,全称为「International Conference on Learning Representations」(国际学习表征会议),2013 年开始每年举办一次,2020年将举办第八届会议,该会议已经得到学术研究者们的广泛认可,被认为是深度学习领域的顶级会议。

    创办者
    ICLR 是由位列深度学习三大巨头之二的 Yoshua Bengio 和 Yann LeCun 牵头创办。

    Yoshua Bengio ,蒙特利尔大学教授,深度学习三巨头之一,他领导蒙特利尔大学的人工智能实验室(MILA)进行 AI 技术的学术研究。MILA 是世界上最大的人工智能研究中心之一,与谷歌也有着密切的合作。

    Yann LeCun ,纽约大学教授,深度学习三巨头之一的他现任 Facebook 人工智能研究院(FAIR)院长,卷积神经网络之父,为深度学习的发展和创新作出了重要贡献。

    会议宗旨
    ICLR 希望能为深度学习提供一个专业化的交流平台

    众所周知,数据的应用表征对于机器学习的性能有着重要影响。表征学习的迅猛发展也伴随着不少问题,比如我们如何更好地从数据中学习更具含义及有效的表征。我们对这个领域展开了探索,包括了深度学习、表征学习、度量学习、核学习、组合模型、非常线性结构预测及非凸优化等问题。

    尽管表征学习对于机器学习及包括视觉、语音、音频及 NLP 领域起着至关重要的作用,目前还缺乏一个场所,能够让学者们交流分享该领域所关心的话题。ICLR 的宗旨正是填补这一鸿沟。

    会议特色:Open Review 评审机制
    ICLR 不同于其它国际会议,得到好评的真正原因,并不只是两位创办者所自带的名人光环,而在于它推行的 Open Review 评审制度。

    Open Review 评审机制
    目前的论文审核主要分为单盲 (single-blind review)、双盲 (double-blind review) 及开放评审(open review)等多种形式。单盲评审的含义非常简单,即评审知道作者的名字、学校等身份信息,但作者并不知道评审论文的人是谁;而双盲评审则是双方都不知晓彼此的身份信息。这两种方式为较多学术会议及期刊评审论文的主要途径。
      单盲评审的优势非常明显,即评审处于匿名身份,可以让评审免受压力,但评审由于知道了论文的作者信息,则非常有可能产生刻板印象,产生不够客观的评审结果。比如,对于比较有名的学者,评审会对论文的质量产生预设。而双盲评审则能够大幅降低作者个人信息所带来的附加效应,不过,评审也非常有可能从行文、主题中判断作者的信息。

    而 Open Review 则非常不同,根据规定,所有提交的论文都会公开姓名等信息,并且接受所有同行的评价及提问(open peer review),任何学者都可或匿名或实名地评价论文。而在公开评审结束后,论文作者也能够对论文进行调整和修改。

    ICLR 虽然并不一定是第一个采用 Open Review 进行论文评审的机构,但一定是做得最公开、影响范围最大的一个会议。虽然 ICLR 开了公开透明的先河,但也有可能引来争议及不必要的舆论讨论。

    目前 ICLR 的历届所有论文及评审讨论的内容,都完整地保存在 OpenReview.net 上,它也是 ICLR 的官方投稿入口。OpenReview.net 是马萨诸塞大学阿默斯特学院 Andrew McCAllum 为 ICLR 2013 牵头创办的一个公开评审系统,秉承公开同行评审、公开发表、公开来源、公开讨论、公开引导、公开推荐、公开 API 及开源等八大原则,得到了 Facebook、GOOGle、NSF 和马萨诸塞大学阿默斯特中心等机构的支持。此外,目前它也接受其它学术会议的论文投递。

    这样的公开评审制度在双盲或单盲的学术会议环境下可谓一股清流,迅速吸引了学界的注意。

    展开全文
  • ICLR 2018.rar

    2021-01-21 10:38:22
    ICLR 2018会议论文集
  • ICLR2017文献

    2018-05-25 10:26:45
    2017年ICLR相关文献PPT版。
  • ICLR 2018论文合集

    2020-02-12 09:44:42
    ICLR论文合集,此篇收集了2018的所有论文,希望对各位同学有用,论文合集,论文合集,论文合集,论文合集。
  • iclr-2021-Baynne ICLR 2021仿真深度学习研讨会论文。 档案文件 main.py:主文件,设置超参数,执行训练,保存模型检查点等 BNN.py:异方差神经网络的类定义 gaussian_nll_loss_class.py:高斯负对数似然损失 ...
  • RLDM ICML AAAI ICLR 2019 Notes RLDM ICML AAAI ICLR 2019 Notes
  • iclr2015

    2015-04-07 16:50:00
    http://www.iclr.cc/doku.php?id=iclr2015:main#accepted_papers ...iclr2015的accept papers,有些看过,有些没看明白,看来还是要再读几篇的。 转载于:https://www.cnblogs.com/jianyingzhou/p/4398738.html...

    http://www.iclr.cc/doku.php?id=iclr2015:main#accepted_papers

    iclr2015的accept papers,有些看过,有些没看明白,看来还是要再读几篇的。

    转载于:https://www.cnblogs.com/jianyingzhou/p/4398738.html

    展开全文
  • 2021年ICLR计算几何与拓扑挑战 欢迎参加2021年ICLR计算几何与拓扑挑战! 这项挑战的目的是通过依靠最先进的几何和拓扑Python软件包创建最佳的数据分析,计算方法或数值实验,从而推动计算微分几何和拓扑学领域的...
  • CHIPNET ICLR2021

    2021-04-04 22:55:27
    CHIPNET ICLR2021论文精读 原文链接:link 代码链接:link 本文完全是个人见解,可能有理解错的地方请大家多多包涵,及时指正。 contribution 想法感觉很不错,之前看的大多数剪枝都是先训练然后将权重绝对值最小的那...

    CHIPNET ICLR2021论文精读

    原文链接:link
    代码链接:link
    本文完全是个人见解,可能有理解错的地方请大家多多包涵,及时指正。

    contribution

    原文表述
    想法感觉很不错,之前看的大多数剪枝都是先训练然后将权重绝对值最小的那部分按照剪枝比例剪掉,然后迭代剪。
    这篇文章将mask变成一个可以使用梯度来更新的量(我看到的文章很少有基于梯度更新mask的,如果大家有看到过类似文章,欢迎在评论区分享)

    剪枝mask由0-1构成,是离散的无法使用gradient-based 方法更新mask,本文通过将{0,1}的mask转化为[0,1]的连续函数,从而可以使mask能够使用梯度更新。接下来问题就转化成了如何将[0,1]的数投影到{0,1}

    proposed approach

    主要以下分为3个函数:

    logistic curves

    z~=11+eβ(ψψ0) \widetilde{z}=\frac {1} {1+e^{-\beta(\psi-\psi_{0})}}
    不同β\beta得到的z~\widetilde{z}曲线
    β\beta很小时,z~\widetilde{z}近似一个在-1到1上呈线性的曲线,当β\beta很大时,z~\widetilde{z}近似一个阶跃函数。
    感觉应该是把看成了一个整体

    continuous Heaviside function

    仅仅是logistic curves不能获得离散的{0,1}的值,因此引入了continuous Heaviside function
    z=1eγz~+z~eγz=1-e^{-\gamma\widetilde{z}}+\widetilde{z}e^{-\gamma}
    不同γ\gamma得到的zz曲线
    由下图可以看出,γ=0\gamma=0时,曲线zz是线性的,γ\gamma越大,曲线zz越接近阶跃函数
    在这里插入图片描述

    crispness loss

    虽然logistic curves和continuous Heaviside function有助于获得离散的{0,1}值,但是没有约束或者罚函数来约束它,因此文章中给出了一个crispness loss
    Lc=z~z22\mathcal{L}_c=||\widetilde{z}-z||_2^2
    在这里插入图片描述
    上图是β=2\beta=2γ=4\gamma=4对应的logistic curves和continuous Heaviside function曲线,只有当z~=z=0\widetilde{z}=z=0或者z~=z=1\widetilde{z}=z=1Lc\mathcal{L}_c最小,为0。
    下图是不同的β\betaγ\gamma对应的Lc(ψ)\mathcal{L}_c(\psi)曲线
    在这里插入图片描述
    β\betaγ\gamma较小时,crispness loss对剪枝过程影响很小,随着γ\gamma的增加,Lc\mathcal{L}_c的尖峰上移且左移,左移使得对于负的ψ\psi惩罚更大,使其变得更负,这就使得z更接近0。
    下图a是所提的方法(包含完整的三部分),b没有crispness loss,c没有without logistic round function,可以看出a的阙值更大,能获得更好的稀疏性。
    在这里插入图片描述

    budget constraints

    文中使用了channel, activation volume, parameters and FLOPs这四种开支约束。
    文中定义了一项budget lossLb=(V(z)V0)2\mathcal{L}_b=(\mathcal{V}(z)-\mathcal{V}_0)^{2},其中V()\mathcal{V}(\cdot)是上述四种开支之一,在此mark一下,感觉在附录里详细介绍budget constraints的比较少,方便下次查阅。
    在这里插入图片描述

    soft and hard pruning

    本文剪枝分为两步:soft pruning 和 hard pruning。预训练模型后应用mask进行软剪枝,软剪枝算法如下图所示:
    在这里插入图片描述
    这里的loss由三部分组成:L=Lce+α1Lc+α2Lb\mathcal{L}=\mathcal{L}_{ce}+\alpha_{1}\mathcal{L}_{c}+\alpha_{2}\mathcal{L}_{b},这里Lce\mathcal{L}_{ce}是交叉熵损失。该部分在代码中体现为:

    def criterion(model, y_pred, y_true):
        global steepness
        ce_loss = CE(y_pred, y_true)  # orginal loss
        budget_loss = ((model.get_remaining(steepness, args.budget_type).to(device) - Vc.to(device)) ** 2).to(device)
        crispness_loss = model.get_crispnessLoss(device)
        return budget_loss * weightage1 + crispness_loss * weightage2 + ce_loss
    

    在每次软剪枝之后,都会以硬剪枝的方式评估模型的性能。 最后,选择在验证集上具有最佳性能的模型进行微调。

    pseudo code

    在这里插入图片描述

    experiment setup

    数据集:CIFAR-10/100 和 Tiny ImageNet
    模型: WideResNet-26-12,PreResNet-164,ResNet-50 和 ResNet-101
    参数设置: α1=10\alpha_{1}=10, α2=30\alpha_{2}=30
    其他细节详见附录,不想写了

    results

    这里只放结果不分析了,虽然这文章没用ImageNet,但是个人感觉附录写的真的详细,不像有些文章…
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    上图可视化感觉有点夸张,中间几层几乎全剪掉了??
    在这里插入图片描述

    Transfer learning of masks

    文章中Tiny ImageNet作为老师模型,CIFAR-100作为学生模型,对ResNet-101进行剪枝,发现当通道开支在40%和60%时,迁移mask的性能比训练原始数据集的更好,可能因为Tiny ImageNet比CIFAR-100信息更加丰富
    在这里插入图片描述

    由于篇幅较长了,代码就不放在这篇讲了,下篇博文会详细介绍CHIPNET的代码(写的真好啊!!!)

    展开全文
  • 背景:ICLR2018 论文,Graph Attention Network在GNN中非常重要,再之前图卷积网络GCN的基础之上引入了注意力机制,非常实用。 论文地址:https://arxiv.org/abs/1710.10903 代码地址: ...

    背景:ICLR2018 论文,Graph Attention Network在GNN中非常重要,再之前图卷积网络GCN的基础之上引入了注意力机制,非常实用。

    论文地址:https://arxiv.org/abs/1710.10903

    代码地址: https://github.com/Diego999/pyGAT

    相关论文详解:

    GCN (Graph Convolutional Network) 图卷积网络概览

    图注意力网络(GAT) ICLR2018, Graph Attention Network论文详解

    旷视CVPR2019图卷积多标签图像识别Multi-Label Image Recognition with Graph Convolutional Networks论文详解

    无监督图嵌入Unsupervised graph embedding|基于对抗的图对齐adversarial graph alignment详解

    Graph特征提取方法:谱聚类(Spectral Clustering)详解

    目录

    一、背景与概览

    1.1 相关研究

    1.2 贡献点

    1.3 相关工作

    谱方法 spectral approaches

    非谱方法 non-spectral approaches

    注意力机制 self-attention

    二、方法(重点)

    2.1 方法特性

    2.2 图注意力层Graph Attention layer

    输入与输出

    特征提取与注意力机制

    Output features

    multi-head attention

    2.3 与同类工作的对比

    算法复杂度低

    更好鲁棒性

    不需要整张Graph

    比LSTM更强

    与MoNet的对比

    三、实验与评估

    3.1 数据集

    3.2 半监督学习transductive learning

    3.3 归纳学习inductive learning

    四、结论与个人总结


    一、背景与概览

    图注意力网络(GAT)Graph attention network缩写为GAT,若按照首字母大写,会与对抗生成网络GAN混淆。所以后面GAT即本文的图注意力网络。

    1.1 相关研究

    下面三篇论文递进关系:

    • Semi-Supervised Classification with Graph Convolutional Networks,ICLR 2017,图卷积网络 https://arxiv.org/abs/1609.02907
    • Graph Attention Networks,ICLR 2018.  图注意力网络,就是此篇文章所解析的论文 https://arxiv.org/abs/1710.10903
    • Relational Graph Attention Networks ,ICLR2019  关联性图注意力网络,整合了GCN+Attention+Relational

    1.2 贡献点

    • 引入masked self-attentional layers 来改进前面图卷积graph convolution的缺点
    • 对不同的相邻节点分配相应的权重,既不需要矩阵运算,也不需要事先知道图结构
    • 四个数据集上达到state of the art的准确率Cora、Citeseer、Pubmed、protein interaction

    1.3 相关工作

    对待图结构的数据有两种方法,谱方法和非谱方法

    谱方法 spectral approaches

    即Semi-Supervised Classification with Graph Convolutional Networks,ICLR 2017这篇文章中的方法

    解析 :GCN (Graph Convolutional Network) 图卷积网络概览

    Finally, Kipf & Welling (2017) simplified the previous method by restricting the filters to operate in a 1-step neighborhood around each node.在每个节点周围对卷积核做一阶邻接近似。但是此方法也有一些缺点:

    • 必须基于相应的图结构才能学到拉普拉斯矩阵L
    • 对于一个图结构训练好的模型,不能运用于另一个图结构(所以此文称自己为半监督的方法)

    非谱方法 non-spectral approaches

    One of the challenges of these approaches is to define an operator which works with different sized neighborhoods and maintains the weight sharing property of CNNs. 即每个节点的相邻链接数量是不一样的,如何能设置相应的卷积尺寸来保证CNN能够对不同的相邻节点进行操作。下文这种方法运用GraphSAGE, 取得了不错的结果

    William L Hamilton, Rex Ying, and Jure Leskovec. Inductive representation learning on largegraphs. Neural Information Processing Systems (NIPS), 2017.

    这种方法是将相邻节点设置为固定的长度,然后进行specific aggregator,例如mean over all the sampled neighbors’ feature vectors, or the result of feeding them through a recurrent neural network。这种方法在几个大的benchmarks上取得了非常好的效果。

    注意力机制 self-attention

    优点:可以处理任意大小输入的问题,并且关注最具有影响能力的输入。

    注意力机制再RNN与CNN之中,都取得了不错的效果,并且可以达到state of the art的性能。

    Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. arXiv preprint arXiv:1706.03762, 2017

    二、方法(重点)

    一整套推导下来,并不算难,没有过于复杂的推导。下面每个公式以及每个变量我都明确的给出了其中的意义。

    2.1 方法特性

    The idea is to compute the hidden representations of each node in the graph, by attending over its neighbors, following a self-attention strategy. 针对每一个节点运算相应的隐藏信息,在运算其相邻节点的时候引入注意力机制:

    • 高效:针对相邻的节点对,并且可以并行运算
    • 灵活:针对有不同度(degree)的节点,可以运用任意大小的weight与之对应。(这里我们解释一个概念,节点的度degree:表示的是与这个节点相连接的节点的个数)
    • 可移植:可以将模型应用于从未见过的图结构数据,不需要与训练集相同。

    2.2 图注意力层Graph Attention layer

    输入与输出

    输入

    N为节点的个数,F为feature的个数,这表示输入为N个节点的每个节点的F个feature

    输出

    表示对这N个节点的 F' 个输出,输出位N个节点的每个节点的F'个feature

    这里我们明确一下,针对的是N个节点,按照其输入的feature预测输出的feature。

    特征提取与注意力机制

    为了得到相应的输入与输出的转换,我们需要根据输入的feature至少一次线性变换得到输出的feature,所以我们需要对所有节点训练一个权值矩阵:,这个权值矩阵就是输入与输出的F个feature与输出的F'个feature之间的关系。

    We then perform self-attention on the nodes—a shared attentional mechanism,针对每个节点实行self-attention的注意力机制,机制为  

    注意力互相关系数为attention coefficients:

    • 这个公式表示的节点 j 对于节点 i 的重要性,而不去考虑图结构性的信息
    • 如前面所言,向量h就是 feature向量
    • 下标i,j表示第i个节点和第j个节点

    作者通过masked attention将这个注意力机制引入图结构之中,masked attention的含义 :只计算节点 i 的相邻的节点 j

     节点 j 为,其中Ni为 节点i的所有相邻节点。为了使得互相关系数更容易计算和便于比较,我们引入了softmax对所有的i的相邻节点j进行正则化:

    实验之中,注意力机制a是一个单层的前馈神经网络,通过权值向量来确定,并且加入了 LeakyRelu的非线性激活,这里小于零斜率为0.2。(这里我们回顾下几种Relu函数,relu:小于0就是0,大于零斜率为1;LRelu:小于零斜率固定一个值,大于零斜率为1;PRelu:小于零斜率可变,大于零斜率为1;还有CRelu,Elu,SELU)。注意力机制如下:

    ,也是我们前面需要得到的注意力互相关系数

    在模型中应用相互注意机制a(Whi,Whj),通过权重向量 a 参数化,应用 LeakyReLU 激活

    • 模型权重为
    • 转置表示为T
    • concatenation 用 || 表示
    • 公式含义就是权值矩阵与F'个特征相乘,然后节点相乘后并列在一起,与权重相乘,LRelu激活后指数操作得到softmax的分子

    相应代码:

        def forward(self, x):
            # [B_batch,N_nodes,C_channels]
            B, N, C = x.size()
            # h = torch.bmm(x, self.W.expand(B, self.in_features, self.out_features))  # [B,N,C]
            h = torch.matmul(x, self.W)  # [B,N,C]
            a_input = torch.cat([h.repeat(1, 1, N).view(B, N * N, C), h.repeat(1, N, 1)], dim=2).view(B, N, N,
                                                                                                      2 * self.out_features)  # [B,N,N,2C]
            # temp = self.a.expand(B, self.out_features * 2, 1)
            # temp2 = torch.matmul(a_input, self.a)
            attention = self.leakyrelu(torch.matmul(a_input, self.a).squeeze(3))  # [B,N,N]
    
            attention = F.softmax(attention, dim=2)  # [B,N,N]
            attention = F.dropout(attention, self.dropout, training=self.training)
            h_prime = torch.bmm(attention, h)  # [B,N,N]*[B,N,C]-> [B,N,C]
            out = F.elu(h_prime + self.beta * h)
            return out

    Output features

    通过上面,运算得到了正则化后的不同节点之间的注意力互相关系数normalized attention coefficients,可以用来预测每个节点的output feature:

    • 我们再回顾一下含义,W为与feature相乘的权值矩阵
    • a为前面算得的注意力互相关系数
    • sigema为非线性激活
    • 遍历的j 表示所有与i 相邻的节点
    • 这个公式表示就是,该节点的输出feature与与之相邻的所有节点有关,是他们的线性和的非线性激活
    • 这个线性和的线性系数是前面求得的注意力互相关系数

    multi-head attention

    multi-head attention与下面这个工作类似:

    Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. arXiv preprint arXiv:1706.03762, 2017.

    在上面的output feature加入计算multi-head的运算公式:

    • concate操作为||
    • 第k个注意力机制为
    • 共大K个注意力机制需要考虑,小k表示大K中的第k个
    • 输入特征的线性变换表示为
    • 最终的输出为h' 共由KF' 个特征影响

    例如,K=3时候,结构如下

    例如此图,节点1在邻域中具有多端注意机制,不同的箭头样式表示独立的注意力计算,通过连接或平均每个head获取 h1

    对于最终的输出,concate操作可能不那么敏感了,所以我们直接用K平均来取代concate操作,得到最终的公式:

    2.3 与同类工作的对比

    因为我们比较重点关注于运用,这部分我们粗略的看一下就好,需要的话再来细看更新。

    算法复杂度低

    GAT运算得到F'个特征需要的算法复杂度

    • F':为输出特征的个数
    • F:为输入特征的个数
    • |V| :节点的个数
    • |E|:节点之间连接的个数

    并且引入K之后,对于每个head的运算都独立并且可以并行

    更好鲁棒性

    与GCN的不同在于,GAT针对不同的相邻节点的重要性进行预测,模型具有更好的性能并且对于扰动更加鲁棒。

    不需要整张Graph

    引入注意力机制之后,只与相邻节点有关,即共享边的节点有关,无需得到整张graph的信息。

    • 即使丢失了i,j之间的链接,则不计算即可
    • 可以将模型运用于inductive learning,更好解释性,即使graph完全看不到completely unseen,也可以运行训练过程

    比LSTM更强

    The recently published inductive method of Hamilton et al. (2017) samples a fixed-size neighborhood of each node, in order to keep its computational footprint consistent; this does not allow it access to the entirety of the neighborhood while performing inference. Moreover, this technique achieved some of its strongest results when an LSTM (Hochreiter & Schmidhuber, 1997)-based neighborhood aggregator is used. This assumes the existence of a consistent sequential node ordering across neighborhoods, and the authors have rectified it by consistently feeding randomly-ordered sequences to the LSTM. Our technique does not suffer from either of these issues—it works with the entirety of the neighborhood (at the expense of a variable computational footprint, which is still on-par with methods like the GCN), and does not assume any ordering within it.

    2017年Hamilton提出的inductive method为每一个node都抽取一个固定尺寸的neighborhood,为了计算的时候footprint是一致的(指的应该是计算的时候处理neighborhood的模式是固定的,不好改变,因此每次都抽样出固定数量的neighbor参与计算),这样,在计算的时候就不是所有的neighbor都能参与其中。此外,Hamilton的这个模型在使用一些基于LSTM的方法的时候能得到最好的结果,这样就是假设了每个node的neighborhood的node一直存在着一个顺序,使得这些node成为一个序列。但是本文提出的方法就没有这个问题,每次都可以将neighborhood所有的node都考虑进来,而且不需要事先假定一个neighborhood的顺序

    与MoNet的对比

    As mentioned in Section 1, GAT can be reformulated as a particular instance of MoNet (Monti et al., 2016). More specifically, setting the pseudo-coordinate function to be u(x, y) = f(x)kf(y), where f(x) represent (potentially MLP-transformed) features of node x and k is concatenation; and the weight function to be wj(u) = softmax(MLP(u)) (with the softmax performed over the entire neighborhood of a node) would make MoNet’s patch operator similar to ours. Nevertheless, one should note that, in comparison to previously considered MoNet instances, our model uses node features for similarity computations, rather than the node’s structural properties (which would assume knowing the graph structure upfront). GAT可以看做一个MoNet的特例。

    三、实验与评估

    实验分成两部分,transductive learning(半监督学习)和inductive learning(归纳学习)。模型用了两层的GAT

    3.1 数据集

    图结构的数据集,以及数据集之中的信息如下:

    3.2 半监督学习transductive learning

    • 两层 GAT
    • 在Cora 数据集上优化网络结构的超参数,应用到Citeseer 数据集
    • 第一层 8 head, F`=8 , ELU 作为非线性函数
    • 第二层为分类层,一个 attention head 特征数C,后跟 softmax 函数,为了应对小训练集,正则化(L2)
    • 两层都采用 0.6 的dropout,相当于计算每个node位置的卷积时都是随机的选取了一部分近邻节点参与卷积

    两个细节暂时不细看,贴出结果,均取得了state-of-the-art的结果

    3.3 归纳学习inductive learning

    • 三层GAT 模型
    • 前两层 K=4, F1=256 ,ELU作为非线性函数
    • 最后一层用来分类 K=6, F`=121 , 激活函数为sigmoid
    • 该任务中,训练集足够大不需要使用 正则化 和 dropout

    两个任务都是用Glorot初始化初始的,并且是用Adam SGD来最小化交叉熵进行优化

    四、结论与个人总结

    引用了注意力机制,并且模型性能达到state of the art.

    运算相邻节点,更加具有鲁棒性,不需要整张图。

    更具有可解释性,公式也更直观。

    相关论文详解:

    GCN (Graph Convolutional Network) 图卷积网络概览

    图注意力网络(GAT) ICLR2018, Graph Attention Network论文详解

    旷视CVPR2019图卷积多标签图像识别Multi-Label Image Recognition with Graph Convolutional Networks论文详解

    无监督图嵌入Unsupervised graph embedding|基于对抗的图对齐adversarial graph alignment详解

    Graph特征提取方法:谱聚类(Spectral Clustering)详解

    展开全文
  • ICLR 2017精选论文

    2020-06-04 07:07:21
    深度学习及表征学习的顶级会议 The 5th International Conference on Learning Representations(ICLR 2017)将于今年4月24日-26日在法国南部的地中海海港城市土伦举行。今年是 ICLR 举办的第五个年头。这个从最开始...
  • 抓取并可视化ICLR 2019 OpenReview数据 内容描述 此Jupyter笔记本包含ICLR 2019 OpenReview网页爬网的数据和可视化内容。 所有已抓取的数据(按平均评分排序)都可以在找到。 接受的论文对被拒绝的论文的平均评分为6...
  • iclr.github.io-源码

    2021-03-08 12:12:25
    ICLR会议门户 安装 pip install -r requirements.txt 根据您的系统,将pip替换为pip3 。 档案文件 静态文件js / css / image static/ 网站数据文件yaml / json sitedata/ HTML模板文件templates/pages 测试 bash ...
  • iclr_2019会议笔记.pdf

    2019-08-12 17:06:34
    iclr2019会议笔记,每日的主题,关键点整理,以及一些在人工智能领域未来可以做的方面的整理。
  • ICLR
  • ICLR 2019 OpenReview网页抓取数据
  • ICLR-2019-Oral.zip

    2019-10-09 15:59:06
    ICLR是Yann LeCun 、Yoshua Bengio 等几位行业顶级专家于2013年发起,如今已成为深度学习领域一个至关重要的学术盛事,每年一届,每届包括24篇Oral论文以及诺干Poster论文。
  • ICLR-2019-Poster.zip

    2019-10-09 16:01:16
    ICLR是Yann LeCun 、Yoshua Bengio 等几位行业顶级专家于2013年发起,如今已成为深度学习领域一个至关重要的学术盛事,每年一届,每届包括24篇Oral论文以及诺干Poster论文。
  • ICLR2021 Introduction 大多数为图像分类设计的知识蒸馏网络在目标检测任务中效果不好,原因是: 前景和背景像素之间不平衡 缺乏对不同像素之间关系的提炼 基于以上两个原因,本文分别做了以下工作: ...
  • ICLR2019 收录论文

    2019-05-22 17:14:59
    https://chillee.github.io/OpenReviewExplorer/index.html?conf=iclr2019
  • 该存储库包含源代码以及指向ICLR 2019论文随附的数据和预训练嵌入模型的链接: @inproceedings{ bepler2018learning, title={Learning protein sequence embeddings using information from structure}, author={...
  • iclR基因敲除对大肠杆菌产琥珀酸的影响,刘子鹤,王庆昭,为了进一步提高大肠杆菌的产琥珀酸性能,本文对大肠杆菌的乙醛酸循环进行了改造,构建了iclR系列敲除菌TUQ8和TUQ19。通过对其发酵和�
  • CPT:通过循环精度进行高效的深度神经网络训练 傅永干,郭国,孟丽,辛欣,丁以宁,钱嘉乐,林颖妍 在ICLR 2021上接受。 更多细节即将推出。
  • ICLR 2020 正在进行,但总结笔记却相继出炉。我们曾对 ICLR 2020 上的趋势进行介绍,本文考虑的主题为知识图谱。
  • workshop_of_NAS_ICLR2020.rar

    2020-05-19 10:22:17
    ICLR 2020 线上会议已经圆满结束。此次会议关于NAS的研究主题包括对benchmark的探讨、对于流行的NAS方法的理解和分析,以及如何提高NAS方法的精度和效率等。值得一提的是,此届会议举办了ICLR历史上的第一个神经网络...
  • ICLR2020NLP相关的文章

    2021-01-10 20:15:39
    会议解读:ICLR2020NLP相关的文章https://neptune.ai/blog/iclr-2020-nlp-nlu
  • 本文关注焦点是ICLR上NLP主题中的6篇论文。接下来我们还将精选模型压缩、预训练等热点领域,为大家带来系列论文解读,敬请关注。
  • ICLR 2014--论文

    2019-01-03 16:17:02
    ICLR 2014 Workshop Track Submitted Papers Do Deep Nets Really Need to be Deep?  Jimmy Lei Ba, Rich Caurana 26 Dec 2013ICLR 2014 workshop submissionReaders: Everyone10 Replies Multi-GPU ...
  • ICLR2017-2019论文列表

    2019-09-25 16:30:40
    2017-2019年计算机视觉顶会文章收录 AAAI2017-2019 CVPR2017-2019 ECCV2018 ICCV2017-2019 ICLR2017-2019 NIPS2017-2019 ICLR 2019Submssion Papers Index ICLR 2018Submssion Papers Index ...
  • ICLR 2013--论文

    2019-01-03 16:11:23
    ICLR 2013 Conference Track Accepted for Oral Presentation Herded Gibbs Sampling  Luke Bornn, Yutian Chen, Nando de Freitas, Maya Baya, Jing Fang, Max Welling 19 Jan 2013ICLR 2013 conference ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,387
精华内容 954
热门标签
关键字:

iclr