精华内容
下载资源
问答
  • 其次,结合矩阵补全(MC)技术与CS 技术,提出基于极稀疏块观测矩阵的压缩感知数据收集算法,在一个采集周期内进行数据收集,利用 MC 技术恢复丢失数据,减少分组丢失对数据收集的影响;利用CS技术重构全网数据,...
  • 近年来,随着压缩感知技术在信号处理领域的巨大成功,由其衍生而来的矩阵补全技术也日益成为机器.学习领域的研究热点,诸多研究者针对矩阵补全问题展开了大量卓有成效的研究.为了更好地把握矩阵补全技术的.发展规律,...
  • 矩阵补全

    千次阅读 2019-08-28 20:36:46
    当信号用矩阵形式表示时,当矩阵的奇异值具有稀疏性(即矩阵是低秩的)且采样数目满足一定条件时,大多数矩阵可以通过求解核范数最小化问题来精确地恢复所有元素,称为矩阵补全。 近年来涌现出了许多求解秩最小化...

    信号在一组基下是稀疏的且满足一定条件时,压缩感知理论证实了可以通过求解L1最小化问题来精确地恢复所有元素。
    当信号用矩阵形式表示时,当矩阵的奇异值具有稀疏性(即矩阵是低秩的)且采样数目满足一定条件时,大多数矩阵可以通过求解核范数最小化问题来精确地恢复所有元素,称为矩阵补全。

    近年来涌现出了许多求解秩最小化问题的启发式方法,这些方法主要分为两类:
    一类是将秩函数凸松弛到矩阵核范数,建立核范数优化模型;
    另一类是事先给定矩阵的秩,建立低秩分解模型。

    *矩阵的核范数(nuclear norm)等于矩阵奇异值的和,而矩阵的秩(rank)是非零奇异值的个数,所以核范数能近似矩阵的秩

    矩阵的核范数是一个连续的、不可微的凸函数。梯度或次梯度下降法是求解核范数优化模 型的主要方法。
    矩阵核范数最小化模型 等价于 半定规划问题。

    基本知识

    奇异值分解( SVD):
    在这里插入图片描述
    范数与对偶范数
    在这里插入图片描述

    核范数优化模型的矩阵补全算法

    对于低秩矩阵 M 由仿射秩最小化问题凸松弛到核范数最小化问题:在这里插入图片描述
    当矩阵 X 给定时,由定义 3 知 X 的核范数等于下列优化问题的最优值:
    在这里插入图片描述
    求解半定规划常用的方法是内点算法。

    低秩矩阵分解模型的矩阵补全算法

    对于核范数最小化模型,用矩阵核范数来度量秩的大小。在实际问题中,若事先知道秩的取值,则可以用低秩矩阵分解
    模型来恢复丢失元素。这种方法还可以避免矩阵的奇异值分解。
    在这里插入图片描述

    展开全文
  • 矩阵分解(Matrix Factorization)是指用MMM,^,,=AAAxBBB来近似矩阵MMM,那么AAAxBBB中的元素就可以用于估计MMM中对应的不可见的位置的元素值,同时AAAxBBB可以看作是MMM的分解,所以被称为矩阵分解。 矩阵完成...
    矩阵分解(Matrix Factorization)是指用 M M M , ^, = A A Ax B B B来近似矩阵 M M M,那么 A A Ax B B B中的元素就可以用于估计 M M M中对应的不可见的位置的元素值,同时 A A Ax B B B可以看作是 M M M的分解,所以被称为矩阵分解。
    矩阵完成(Matrix Completion)目的是为了估计矩阵中的缺失部分(不可观察的部分),可以看作是用矩阵 X X X来近似矩阵 M M M然后用 X X X中的元素作为矩阵 M M M中不可观察部分元素的估计。即用 M’=A×B 来近似 M,再用 M’上的元素值来填充 M 上的缺失值,达到预测效果进而补全矩阵。
    展开全文
  • 为了克服这个困难,通过将Web服务QoS预测问题建模为L2,1范数正则化矩阵补全问题,提出了一类基于结构化噪声矩阵补全的Web服务QoS预测方法。真实数据集上的实验结果表明,该方法不仅能精确地辨识出QoS采样矩阵中噪声...
  • 文章目录1 相关介绍1.1 背景1.2 side information1.3 contributions1.4 相关介绍自编码器矩阵分解模型Matrix completion with side information2 在二部图中矩阵补全作为一种连接预测2.1 符号定义2.2 Revisiting ...

    论文:Graph Convolutional Matrix Completion (GCMC) 图卷积矩阵补全

    作者:来自于荷兰阿姆斯特丹大学的Rianne van den Berg, Thomas N. Kipf(GCN的作者), Max Welling

    来源:KDD 2018 Workshop

    论文链接:https://www.kdd.org/kdd2018/files/deep-learning-day/DLDay18_paper_32.pdf

    Github链接:https://github.com/riannevdberg/gc-mc

    图卷积神经网络(GCN)是现在深度学习的热点之一,这篇文章基于user-item的二部图(Bipartite graph),提出了一种图自编码器框架,从链路预测的角度解决推荐系统中的评分预测问题。此外,为了验证所提出的消息传递方案,在标准的协同过滤任务上测试了所提出的模型,并展示出了一个有竞争力的结果。

    1 相关介绍

    1.1 背景

    随着电子商务和社交媒体平台的爆炸式增长,推荐算法已经成为许多企业不可或缺的工具。
    其中,推荐系统的一个子任务就是矩阵补全。文中把矩阵补全视作在图上的链路预测问题:users和items的交互数据可以通过一个在user和item节点之间的二分图来表示,其中观测到的评分/购买用links来表示。因此,预测评分就相当于预测在这个user-item二分图中的links。

    据此,作者提出了一个图卷积矩阵补全(GCMC)框架:在用深度学习处理图结构的数据的研究进展的基础上,对矩阵进行补全的一种图自编码器框架。这个自编码器通过在二部交互图中信息传递的形式生成user和item之间的隐含特征。这种user和item之间的隐含表示用于通过一个双线性的解码器重建评分links。

    当推荐图中带有结构化的外部信息(如社交网络)时,将矩阵补全作为二部图上的链接预测任务的好处就变得尤为明显。将这些外部信息与交互数据相结合可以缓解与冷启动问题相关的性能瓶颈。实验证明了作者提出的的图自编码器模型能够有效地将交互数据与side information结合起来。进一步证明了,在纯协同过滤场景中,这种方法能够与最新最先进的方法竞争。

    1.2 side information

    边信息(Side Information):是指利用已有的信息Y辅助对信息X进行编码,可以使得信息X的编码长度更短。

    边信息一个通俗的例子是:假设到马场去赌马,根据每个马的赔率可以得到一个最佳的投资方案。但是如果知道赌马的一些历史数据,例如上几场的胜负情况,那么可以得出一个更优的投资方案。赌马中的历史数据就是边信息。

    1.3 contributions

    • 将图神经网络应用于带有结构化side information的矩阵补全任务,并证明这种简单消息传递模型比基于复杂图形的方法有更好的性能
    • 我们引入了节点dropout,这是一种有效的正则化技术,它以固定的概率删除单个节点的所有传出消息的整个集合

    1.4 相关介绍

    自编码器

    下面的基于user或item的自动编码器是一类最新最先进的协同过滤模型,可以看作是文中的图数据自编码器模型的一个特例,其中编码器只考虑user或item的embedding。

    • Autorec: Autoencoders meet collaborative filtering,WWW 2015
    • Dropout: a simple way to prevent neural networks from overfitting,2014
    • [CF-NADE] A neural autoregressive approach to collaborative filtering,ICML 2016

    Autorec是这的第一个这样的模型,在这个模型中,其中,部分观察到的user或item的评分向量通过编码器层投影到潜在空间,并使用均方重建误差损失的解码器层重建。

    CF-NADE算法可视为上述自动编码器体系结构的一个特例。在基于user的场景中,消息只从items传递给users
    ,在基于item的情况下,反之亦然。和文中的自编码器不同的是,评级的items在编码器中被分配了默认的3级,从而创建了一个完全连接的交互图。CF-NADE在节点上强制执行随机排序,并通过随机剪切将传入的消息分成两组,只保留其中一组。因此,该模型可以看作是一个去噪自动编码器,在每次迭代中,输入空间的一部分被随机丢弃。

    矩阵分解模型

    文中提出的模型和很多矩阵分解方法有关:

    • 概率矩阵分解(Probabilistic matrix factorization,2008) (PMF):采样概率的方法,将矩阵 M M M分解为 M ≈ U V T M \approx U V^{T} MUVT
    • BiasedMF( Matrix Factorization Techniques for Recommender Systems,2009):通过合并一个user和item的特定bias以及全局bias来改进PMF
    • 神经网络矩阵分解 (Neural network matrix factorization,2015) (NNMF):扩展了MF方法,通过前馈神经网络传递潜在的users和items特征
    • 局部低秩矩阵近似( Local low rank matrix approximation,ICML 2013):利用低秩近似的不同(与entry相关)组合来重建评价矩阵entries
    Matrix completion with side information
    • 在matrix completion (MC)(Exact matrix completion via convex optimization,2012)中,目标是用一个低秩评分矩阵去近似一个评分矩阵。然而,秩最小化是一个棘手的问题,论文中将秩最小化替换为核范数最小化(矩阵奇异值的总和),将目标函数转化为可处理的凸函数。
    • Inductive matrix completion (IMC)(Provable inductive matrix completion,2013)将users和items的内容信息合并到特征向量中,将评分矩阵中观察到的元素近似为 M i j = x i T U V T y j M_{i j}=x_{i}^{T} U V^{T} y_{j} Mij=xiTUVTyj,其中 x i x_i xi y j y_j yj分别代表user i i i和item j j j的特征向量。
    • geometric matrix completion (GMC) model(Matrix completion on graphs,2014)通过以user图和item图的形式添加side information,引入了MC模型的正则化
    • Collaborative Filtering with Graph Information: Consistency and Scalable Methods(INPS 2015) 针对图正则化矩阵补全问题,提出了一种更有效的交替最小二乘优化方法(GRALS)。
    • RGCNN(Geometric matrix completion with recurrent multi-graph neural networks,NIPS 2017) 是和本文最相关的工作。探讨了基于切比雪夫多项式的users和items k-nearest图的谱图滤波器的应用。文中的模型在一个编码器-解码器步骤中直接建模评级图,而不是使用递归估计,速度有显著的提升。
    • PinSage,这是一个高度可扩展的图卷积网络,基于GraphSAGE框架,用于推荐的web级图,其中对邻居进行下采样以增强可扩展性。与PinSage相比,此文关注包含于图的side information,例如以社交网络图的形式,并进一步引入正则化技术来提高泛化。

    2 在二部图中矩阵补全作为一种连接预测

    2.1 符号定义

    • M M M:评分矩阵,维度为 N u × N v N_u × N_v Nu×Nv,其中 N u N_u Nu是users的数量, N v N_v Nv是items的数量
    • 非零的 M i j M_{ij} Mij表示user i i i对item j j j的评分, M i j = 0 M_{ij}=0 Mij=0表示一个没有观测到评分

    图1表示了整个模型的流程。在一个二分的user-item交互图中,矩阵补全任务(即对未观察到的交互的预测)可以转换为链接预测问题,并使用端到端可训练的图自编码器进行建模。

    • 交互数据可以用无向图G表示: G = ( W , E , R ) G=(\mathcal{W}, \mathcal{E}, \mathcal{R}) G=(W,E,R)
    • W = W u ∪ W v \mathcal{W}=\mathcal{W}_{u} \cup \mathcal{W}_{v} W=WuWv W u \mathcal{W}_{u} Wu表示user节点的集合,维度为 N u N_u Nu W v \mathcal{W}_{v} Wv表示item节点的集合,维度为 N v N_v Nv
    • ( u i , r , v j ) ∈ E \left(u_{i}, r, v_{j}\right) \in \mathcal{E} (ui,r,vj)E带有含评分等级类型的标签, r ∈ { 1 , … , R } = R r \in\{1, \ldots, R\}=\mathcal{R} r{1,,R}=R

    2.2 Revisiting graph auto-encoders 图自编码器

    先前的推荐系统的基于图的方法通常采用多级pipline(此论文有介绍:Recommendation as link prediction in bipartite graphs: A graph kernel-based machine learning approach),其中包括图特征提取模型和链接预测模型,所有这些都分别进行训练。 然而,通过使用端到端学习技术对图结构数据进行建模,通常可以显着改善结果,特别是使用图自动编码器用于在无向图上进行无监督学习和链接预测。

    本文采用(Thomas N. Kipf and Max Welling. Variational graph auto-encoders. NIPS Bayesian Deep Learning Work- shop, 2016.)中介绍的setup,因为它可以有效利用(卷积)权重共享,并允许以节点特征的形式包含边信息。其中

    图自编码器模型: Z = f ( X , A ) Z = f (X , A) Z=f(X,A)

    • 输入:一个 N × D N × D N×D的特征矩阵 X X X和一个图邻接矩阵 A A A, D D D表示节点特征的数量
    • 输出:一个 N × H N × H N×H的节点embedding矩阵 Z = [ z 1 , … , z N ] T Z =\left[z_{1}, \dots, z_{N}\right]^{T} Z=[z1,,zN]T, H H H表示embedding的size

    解码器: A ˇ = g ( Z ) \check{A}=g(Z) Aˇ=g(Z)

    • 输入:节点的embedding对 ( z i , z j ) (z_i,z_j) (zi,zj)
    • 输出:预测邻接矩阵中的各个tntries: A ˇ i j \check{A}_{i j} Aˇij

    对于推荐系统的二部图 G = ( W , E , R ) G=(\mathcal{W}, \mathcal{E}, \mathcal{R}) G=(W,E,R),将编码器重新公式化:

    • [ Z u , Z v ] = f ( X u , X v , M 1 , … , M R ) \left[Z_{u}, Z_{v}\right]=f\left(X_{u}, X_{v}, M_{1}, \ldots, M_{R}\right) [Zu,Zv]=f(Xu,Xv,M1,,MR),其中 M r ∈ { 0 , 1 } N u × N v M_{r} \in\{0,1\}^{N_{u} \times N_{v}} Mr{0,1}Nu×Nv表示评分等级类型 r ∈ R r \in \mathcal{R} rR相关的邻接矩阵(此时为元素是1或0的矩阵,元素为1表示观测到评分等级类型,元素为0就表示没有观测到评分的)
    • Z u Z_u Zu是user的embedding矩阵,维度为 N u × H N_u × H Nu×H
    • Z v Z_v Zv是item的embedding矩阵,维度为 N v × H N_v × H Nv×H
    • 单个user i i i的embedding是一个真值特征向量 z i u z_i^u ziu
    • 单个item j j j的embedding是一个真值特征向量 z j v z_j^v zjv

    类似地,对解码器重新公式化:

    • M ˇ = g ( Z u , Z v ) \check{M}=g\left(Z_{u}, Z_{v}\right) Mˇ=g(Zu,Zv),表示作用在user和item的embedding上的函数,返回一个重构的评分矩阵 M ˇ \check{M} Mˇ,维度为 N u × N v N_u × N_v Nu×Nv

    可以使用最小化 M ˇ \check{M} Mˇ中的预测等级和 M M M中观测到的ground-true等级的reconstruction error训练这个图自编码器。reconstruction error可以使用

    • 均方根误差
    • 当把评分等级分作不同类时,可以使用交叉熵损失

    2.3 Graph convolutional encoder 图卷积编码器

    本文针对推荐任务提出一种图自编码器的变体图卷积编码器。本文提出的编码器模型可以有效利用图形中各个位置之间的权重分配,并为每种边类型(或评分) r ∈ R r \in\mathcal{R} rR分配单独的处理通道。这种权值共享的形式受到了最近的一类卷积神经网络的启发,这些神经网络直接对图形结构的数据进行操作。图数据卷积层执行的局部操作只考虑节点的直接邻居,因此在图数据的所有位置都应用相同的转换。

    局部图卷积可以看作是消息传递,其中特征值的信息被沿着图的边传递和转换

    • Discriminative Embeddings of Latent Variable Models for Structured Data,ICML 2016
    • Neural Message Passing for Quantum Chemistry 量子化学的神经信息传递,ICML 2017

    文中为每个等级分配特定的转换,从item j j j到user i i i传递的信息 μ j → i , r \mu_{j \rightarrow i, r} μji,r表示为

    μ j → i , r = 1 c i j W r x j v (1) \tag{1} \mu_{j \rightarrow i, r}=\frac{1}{c_{i j}} W_{r} x_{j}^{v} μji,r=cij1Wrxjv(1)

    • c i j c_{ij} cij表示正则化常数,选择 ∣ N ( u i ) ∣ \left|\mathcal{N}\left(u_{i}\right)\right| N(ui)(left normalization)或 ∣ N ( u i ) ∣ ∣ N ( v j ) ∣ \sqrt{\left|\mathcal{N}\left(u_{i}\right)\right|\left|\mathcal{N}\left(v_{j}\right)\right|} N(ui)N(vj) (symmetric normalization)
    • N ( u i ) \mathcal{N}\left(u_{i}\right) N(ui)定义为user i i i的邻居集合
    • W r W_{r} Wr是一个边类型的参数矩阵
    • x j v x_j^v xjv是item节点 j j j的特征向量

    从users到items的消息 μ i → j , r \mu_{i \rightarrow j, r} μij,r也以类似的方式传递。在消息传递之后,对每个节点都进行消息累计操作:对每种评分 r r r下的所有邻居 N ( u i ) \mathcal{N}\left(u_{i}\right) N(ui)求和,并将它们累积为单个矢量表示:

    h i u = σ [ accum ⁡ ( ∑ j ∈ N i ( u i ) μ j → i , 1 , … , ∑ j ∈ N R ( u i ) μ j → i , R ) ] (2) \tag{2} h_{i}^{u}=\sigma\left[\operatorname{accum}\left(\sum_{j \in \mathcal{N}_{i}\left(u_{i}\right)} \mu_{j \rightarrow i, 1}, \ldots, \sum_{j \in \mathcal{N}_{R}\left(u_{i}\right)} \mu_{j \rightarrow i, R}\right)\right] hiu=σaccumjNi(ui)μji,1,,jNR(ui)μji,R(2)

    • accum(·)表示一个聚合运算,例如stack(·),或sum(·)
    • σ ( ⋅ ) \sigma(\cdot) σ()表示激活函数,例如ReLU(·) = max(0, ·)

    把中间的输出 h i h_i hi进行转换就得到了每个user最终的embedding:

    z i u = σ ( W h i u ) (3) \tag{3} z_{i}^{u}=\sigma\left(W h_{i}^{u}\right) ziu=σ(Whiu)(3)
    item的embedding z i v z_i^v ziv使用同样的参数矩阵 W W W进行同样计算。在存在特定于user和item的辅助信息(side information)的情况下,文中将单独的参数矩阵用于users和items的embedding。

    公式(2)称为一个图卷积层,公式(3)称为一个稠密层。可以通过使用适当的激活函数堆叠几层(任意组合)来构建更深层次的模型。在最初的实验中,发现堆叠多个卷积层并不能提高性能,而将卷积层与稠密层进行简单组合的效果最佳(一个卷积层后跟着一个稠密层)。

    2.4 Bilinear decoder 双线性解码器

    为了在二部交互图中重建links,考虑一个双线性解码器,把每个评分等级看作是一类。 M ˇ \check{M} Mˇ表示user i i i和item j j j之间重建的评分等级。解码器通过对可能的评分等级进行双线性运算,然后应用softmax函数生成一个概率分布:

    p ( M ˇ i j = r ) = e ( z i u ) T Q r z j v ∑ s = 1 R e ( z i u ) T Q s v j (4) \tag{4} p\left(\check{M}_{i j}=r\right)=\frac{e^{\left(z_{i}^{u}\right)^{T} Q_{r} z_{j}^{v}}}{\sum_{s=1}^{R} e^{\left(z_{i}^{u}\right)^{T} Q_{s} v_{j}}} p(Mˇij=r)=s=1Re(ziu)TQsvje(ziu)TQrzjv(4)

    • Q r Q_r Qr是一个维度为 H × H H × H H×H的可训练参数矩阵, H H H是user或item隐含特征的维度

    预测的评分等级计算方式为

    M ˇ i j = g ( u i , v j ) = E p ( M ˇ i j = r ) [ r ] = ∑ r ∈ R r p ( M ˇ i j = r ) (5) \tag{5} \check{M}_{i j}=g\left(u_{i}, v_{j}\right)=\mathbb{E}_{p\left(\check{M}_{i j}=r\right)}[r]=\sum_{r \in R} r p\left(\check{M}_{i j}=r\right) Mˇij=g(ui,vj)=Ep(Mˇij=r)[r]=rRrp(Mˇij=r)(5)

    2.5 模型训练

    Loss function

    交叉熵损失

    L = − ∑ i , j ; Ω i j = 1 ∑ r = 1 R I [ M i j = r ] log ⁡ p ( M ˇ i j = r ) (6) \tag{6} \mathcal{L}=-\sum_{i, j ; \Omega_{i j}=1} \sum_{r=1}^{R} I\left[M_{i j}=r\right] \log p\left(\check{M}_{i j}=r\right) L=i,j;Ωij=1r=1RI[Mij=r]logp(Mˇij=r)(6)

    • I [ k = l ] = 1 I [k = l] = 1 I[k=l]=1指示函数表示当 k = l k=l k=l时值为1,否则为0
    • Ω ∈ { 0 , 1 } N u × N v \Omega \in\{0,1\}^{N_{u} \times N_{v}} Ω{0,1}Nu×Nv作为未观察到的评分等级的mask,这样对于在 M M M中的元素,如果值为1就代表观测到了的评分等级,为0则对应未观测到的。因此,只需要优化观测到的评分等级。
    Mini-batching
    • 只采样固定数量的user和item对。这既是一种有效的正则化方法,也减少了训练模型所需的内存,而训练模型是将整个movielens-10M放入GPU内存中所必需的
    • 通过实验验证了当调整正则化参数时,mini-batches和full batches训练,在MovieLens-1M数据集可以得到相似的结果
    • 对于除了MovieLens-10M之外的所有数据集,选择full batches训练,因为mini-batches训练收敛更快
    Node dropout
    • 为了使该模型能够很好地泛化到未观测到的评分等级,在训练中使用了dropout ,以一定概率 p d r o p o u t p_{dropout} pdropout随机删除特定节点的所有传出消息,将其称为节点dropout。
    • 在初始实验中,发现节点dropout比消息dropout更能有效地进行正则化
    • 节点dropout也会使embedding更不受特定user或item的影响
    • 在公式(3)的隐含层中使用了常规的dropout
    Weight sharing
    • 并不是所有的users和items对于同一个评分等级都有相同的评分,这可能导致在卷积层中的权重矩阵 W r W_r Wr的某些列优化得没有其他列频繁
    • 在不同 r r r的矩阵 M r M_r Mr间使用一些形式的权值共享对于消除上述优化过程中的问题是可取的

    W r = ∑ s = 1 r T s (7) \tag{7} W_{r}=\sum_{s=1}^{r} T_{s} Wr=s=1rTs(7)

    作为成对的双线性解码器正则化的一种有效方法,采用一组基权重矩阵 P s P_s Ps的线性组合形式的权值共享:

    Q r = ∑ s = 1 n b a r s P s (8) \tag{8} Q_{r}=\sum_{s=1}^{n_{b}} a_{r s} P_{s} Qr=s=1nbarsPs(8)

    • s ∈ ( 1 , … , n b ) s \in\left(1, \ldots, n_{b}\right) s(1,,nb)
    • n b n_b nb表示基权重矩阵 P s P_s Ps的数量
    • a r s a_{r s} ars是可学习的系数,这个系数决定了每一个解码器权重矩阵 Q r Q_r Qr的线性组合
    • 为了避免过拟合并减少参数的数量,基权重矩阵的数量 n b n_b nb应低于评分级别的数量

    2.6 Input feature representation and side information

    包含每个节点信息的特征可以直接在输入时,以输入特征矩阵 X u X_u Xu X v X_v Xv的形式输入到图编码器中。然而,当特征矩阵中没有足够的信息来区分不同的users(或items)及其兴趣时,这就产生了信息流的瓶颈问题。为此,文中加入了user和item的side information:通过单独处理的通道直接在稠密隐含层中加入user节点 i i i的side information x i u , f x_{i}^{u, f} xiu,f和item节点 j j j的side information x j v , f x_{j}^{v, f} xjv,f

    对于user的特征向量:
    z i u = σ ( W h i u + W 2 u , f f i u )  with  f i u = σ ( W 1 u , f x i u , f + b u ) (9) \tag{9} z_{i}^{u}=\sigma\left(W h_{i}^{u}+W_{2}^{u, f} f_{i}^{u}\right) \quad \text { with } \quad f_{i}^{u}=\sigma\left(W_{1}^{u, f} x_{i}^{u, f}+b^{u}\right) ziu=σ(Whiu+W2u,ffiu) with fiu=σ(W1u,fxiu,f+bu)(9)

    • W 1 u , f W_{1}^{u, f} W1u,f W 2 u , f W_{2}^{u, f} W2u,f都是可训练的权重矩阵
    • b u b^u bu是一个bias

    类似地,对于item的特征向量:
    z i v = σ ( W h i v + W 2 v , f f i v )  with  f i v = σ ( W 1 v , f x i v , f + b v ) (10) \tag{10} z_{i}^{v}=\sigma\left(W h_{i}^{v}+W_{2}^{v, f} f_{i}^{v}\right) \quad \text { with } \quad f_{i}^{v}=\sigma\left(W_{1}^{v, f} x_{i}^{v, f}+b^{v}\right) ziv=σ(Whiv+W2v,ffiv) with fiv=σ(W1v,fxiv,f+bv)(10)

    在图卷积层的节点输入特征矩阵 X u X_u Xu X v X_v Xv,选择包含图中每个节点的唯一的 one-hot 向量。

    3 实验

    数据集

    • 来自论文(Geometric matrix completion with recurrent multi-graph neural networks,NIPS 2017)Flixster, Douban,YahooMusic预处理的子集
    • MovieLens(100K, 1M, and 10M)

    这些数据集包括users对items的评分并且以特征的形式合并了一些user/item的其他信息。

    experiments settings

    • accumulation function ( stack vs. sum )
    • whether to use ordinal weight sharing in the encoder
    • left vs. symmetric normalization
    • dropout rate p ∈ { 0.3 , 0.4 , 0.5 , 0.6 , 0.7 , 0.8 } p \in\{0.3,0.4,0.5,0.6,0.7,0.8\} p{0.3,0.4,0.5,0.6,0.7,0.8}
    • Adam optimizer,learning rate of 0 . 01
    • weight sharing in the decoder with 2 basis weight matrices
    • dense layer (no activation function)
    • graph convolution (with ReLU )
    • layer sizes of 500 and 75
    • decay factor set to 0.995

    3.1 MovieLens 100K

    • 使用user 和 item side information,GCMC都要比其他方法更好

    • 结果表明,在二部交互图上进行信息传递的简单的自编码模型比更复杂的递归估计有更好的性能

    • RMSE:均方根误差

    R M S E = M S E = S S E / n = 1 n ∑ i = 1 n w i ( y i − y ^ i ) 2 R M S E=\sqrt{M S E}=\sqrt{S S E / n}=\sqrt{\frac{1}{n} \sum_{i=1}^{n} w_{i}\left(y_{i}-\hat{y}_{i}\right)^{2}} RMSE=MSE =SSE/n =n1i=1nwi(yiy^i)2

    • side information:users(e.g. age, gender, and occupation),movies(genres)

    3.2 MovieLens 1M and 10M

    3.3 Flixster, Douban and YahooMusic

    • 这些数据集以图的形式包含users和items的side information
    • 通过使用邻接向量(按度归一化)作为相应 user/item的特征向量,将这个基于图的side information集成到框架中

    3.4 Cold-start analysis

    • 为了深入了解GC-MC模型对 side information的使用,还研究了模型中user的评分数据很少 (cold-start users)时的的性能。
    • 采用了ML-100K基准数据集,因此对于固定数量的cold-start users N c N_c Nc,除了最小数量 N r N_r Nr之外的所有评分都将从训练集中删除(实验中使用固定种子随机选择)。
    • ML-100K在其原始形式中包含至少20个评分的user
    • N r ∈ { 1 , 5 , 10 } N_{r} \in\{1,5,10\} Nr{1,5,10}表示user的评分数量
    • N c ∈ { 0 , 50 , 100 , 150 } N_{c} \in \{0,50,100,150\} Nc{0,50,100,150}表示cold-start user的数量
    • 虚线表示没有side information的实验
    • 实线表示有side information的实验
    • 标准误差低于0.001,因此未显示

    3.5 讨论

    在二部交互图上进行信息传递的简单的自编码模型比更复杂的递归估计有更好的性能。性能提高的原因:

    • 消息传递在图中的差异。在sRGCNN中,分别使用user和item的k邻近图进行消息传递。因此,消息只在users之间和items之间传递。相反,GC-MC使用观察到的评分图来传递消息。结果,消息从在users发送到items,再从items发送到在users。在side information设置中,还使用Monti等人提供的k邻近来计算side information特征。
    • 对应的图Laplacian的近似不同。sRGCNN使用Chebyshev展开(用user和item的k邻图近),给定的p阶展开,就是考虑到从邻居节点到p-hop邻居的消息。GC-MC对于每个评分类型的二部相互图使用一阶近似,这样只访问每个节点的直接邻居。结果表明,一阶近似方法可以提高性能。

    在ML-1M和ML-10M上的结果表明,有可能将文中方法扩展到更大的数据集,使其在预测性能方面接近最新最先进的基于user或item的协同过滤方法。

    4 总结

    • 提出了图卷积矩阵补全(GC-MC)模型:一种在推荐系统中用于矩阵补全任务的图自编码器框架。编码器包含一个图卷积层,它通过在二部user-item交互图上传递消息来构造users和items的embedding。结合双线性解码器,以标记边的形式预测新的评分。
    • 图动编码器框架可以很自然地包含user和item的 side information。在有side information的情况下,文中提出的GC-MC模型比最近的相关方法表现得更好,这在一些基准数据集上得到了证明。在没有side information的情况下,GC-MC模型也取得了与目前最先进的协同过滤方法有竞争的结果。
    • 文中提出的GC-MC模型可以扩展到大规模的多模态数据上(包括文本、图像和其他基于图的信息)。在这种情况下,GC-MC模型可以与循环或卷积神经网络相结合。
    展开全文
  • 矩阵补全在很多情况下已经发现了广泛的应用,如协同过滤。Zm×n表示m行和n列的数据矩阵,其中只有少量元素中的数据被观察,记作Ω⊂[m]×[n]。我们用PΩ(X)表示在数据矩阵Z可观察部分Ω的可能被噪声污染的观测,这里...

    一 引言

    矩阵补全在很多情况下已经发现了广泛的应用,如协同过滤。Zm×n表示m行和n列的数据矩阵,其中只有少量元素中的数据被观察,记作Ω[m]×[n]。我们用PΩ(X)表示在数据矩阵Z可观察部分Ω的可能被噪声污染的观测,这里,PΩ是一个保留Ω中元素坐标并将其他元素置为0的投影[Office1] 算子。

    矩阵补全任务旨在,在低秩假设下,基于PΩ(X) 补全数据矩阵 Z 缺失的元素。当采用平方损失函数,矩阵补全问题可以写成:

    这里,λ是一个非负正则化参数;  σ2是噪声方差。

    不幸的是,rank(Z)项使上述问题(P0)成为NP难问题。因此,核范数||Z||*被广泛采用作为秩函数一个凸的替代,进而将问题P0转换如下凸问题P1:

    虽然P1凸的,核范数的定义使问题仍然不容易解决。基于核范数的变分公式,解决P1的等价的简单的低秩矩阵分解形式(MF)是一个比较普遍的办法:

    虽然不是联合凸的,矩阵分解形式可以通过交替优化A和B以得到局部最优。

    由于MF的正则项比核范数更友好,许多基于矩阵分解方法已经提出用于矩阵补全,包括最大边界矩阵分解(M3F)( Srebro, Rennie, and Jaakkola 2004; Rennie and Srebro 2005)和贝叶斯概率矩阵分解(BPMF)( Lim and Teh 2007; Salakhutdinov and Mnih 2008)。此外,矩阵分解形式的简单性使人们采取此方法并对其泛化;例如(徐、朱和张2012;2013)用最大熵判别(MED)和非参数贝叶斯方法解决了一个修正的矩阵分解问题。

    相比之下,有相对较少的算法来直接解决P1而不需要矩阵分解的辅助。这些方法需要处理奇异值的谱。这些谱正则化算法需要在施蒂费尔流形(施蒂费尔1935;詹姆斯1976),它被定义为一组在Rn上的正交向量的k-元组(u1,u2,···,uk)上进行优化。如果有的话,[Office2] 这就是阻碍基于谱正则发展贝叶斯方法尝试矩阵补全的主要困难。

    虽然基于谱正则的矩阵补全并不容易,矩阵分解的方法也有一些潜在的优势。其中一个优势就是对奇异值的直接控制。通过施加奇异值的多种先验,我们可以结合丰富的信息来帮助补全矩阵。例如,Todeschini 等人(Todeschini Caron和Chavent 2013)把稀疏先验加入奇异值,自然引出分层自适应核范数(HANN)正则化,并且他们报告了可靠的结果。

    在本文中,我们的目标是研究一种核范数的新方法,希望能像矩阵分解形式一样简单并保留谱正则化的一些好的属性。想法是证明P1的(施蒂费尔流形上的)正交无意义[Office3] 性质。在新方法的基础上,我们通过稀疏引导的奇异值先验设计了一种新颖的贝叶斯模型,允许不同维度拥有不同的正则化参数并自动推断。与通常的贝叶斯矩阵分解相比,我们的方法引入了的一些自然的修正,使其更加灵活和具有适应性。采用实验贝叶斯方法来避免参数调优。在合成矩阵的秩重建和一些常见基准数据集的协同过滤实验,展示我们的方法结果与各种先进的对比算法的比对结果。值得注意的是,合成实验数据表明,当矩阵非常稀疏时我们的方法执行得更好,表明了使用稀疏引导先验的健壮性。

    二 松弛谱正则化

    基于矩阵分解的贝叶斯矩阵补全相对比较容易,我们有许多例子(Lim and Teh 2007;

    Salakhutdinov and Mnih 2008) 。事实上,我们可以将 (1)作为一个最大后验(MAP)估计一个简单的贝叶斯模型,其似然是高斯分布,例如对于 (i,j) Ω, Xij N((ABT)ij2), A和B的先验也是高斯,例如 和由于先验和可能性是共轭,显而易见,做后验推断是容易的。

    然而,当我们试图基于更直接谱正则方式补全贝叶斯矩阵时(P1),同样的过程面临巨大的困难。这是因为先验与高斯似然(或任何其他常见的似然函数)不共轭。更详细地分析p(Z),我们可以对Z进行奇异值分解(SVD),得到,其中是奇异值,和是施蒂费尔数集正交奇异向量。虽然,我们可以定义一个因子化的先验p(Z)= p(d)p(U)p(V),任何U或V的先验(如,均匀哈尔先验(Todeschini, Caron, and Chavent 2013) )需要用施蒂费尔数流形处理,这也是非常重要的。

    事实上,嵌入式处理施蒂费尔流形上的分布在很大程度上仍然是一个开放的问题,虽然有些研究结果(Byrne and Girolami 2013; Hoff 2009; Dobigeon and Tourneret 2010) 中存在于方向统计学的文献中。幸运的是,我们将证明定理1:U和V的正交约束不是谱正则的必要条件。相反,对于所有 k [r],单位球面约束和,是得到P1相同的最优解的充分条件。我们称这种现象为正交无意义[Office4] 。我们称将正交性约束松弛为单位球面约束的谱正则为松弛谱正则

    2.1 谱正则的正交无意义

    我们通过证明其正交性无意义属性,以给出一个P1谱正则的等价形式。

    给出Z的奇异值分解,我们首先将P1等价地改写为P1’, 显示地写出所有的约束:

    其中,r = min(m, n)。然后,我们根据定理1的总结得到一个P1等价公式,这对松弛谱正则的有效性奠定了基础。

    定理1. 设最优值为P1(P1’),并让t 为P2的最优值,如下定义:

    然后,我们有s = t。进一步地,设P2的一个最优解为,则也是 P1的最优解。类似地,对于P1的任何最优解Z†,存在这样一个分解Z†= ,是P2的最优解。

    证明框架:设是P2在最优值t下的一个最优解。由于P1’是与P2相同的带有更严格限制的最优化问题,我们有s≥t

    进行奇异值分解得到Z*=,我们可以证明||Z*||*=。如果,则,可以把Z插入P1到得到一个小于t的更小的值,与s≥t矛盾。因此,和s = t

    此外,由于s = t和把Z插入P1会导出一个不小于t的值,我们得出这样的结论: Z也是P1的一个最优解。设Z†是P1的任意最优解,我们也可以证明存在这样一个分解是P2的一个最优解。

    补充材料1提供了正式的证明和一些评论。

    现在我们证明了谱正则的正交无意义[Office5] 性质。因此,P2是P1的另一个等价形式,类似于矩阵分解所扮演的角色。松弛谱正则形式是介于矩阵分解和谱正则化之间的折中,因为它比矩阵分解有更多的限制(但也容易解),但仍然保留了奇异值分解的形式。正如之前所讨论的,没有严格的正交约束贝叶斯推断是更容易进行的,因此松弛谱正则模型是我们考察的焦点。

    此外,定理1亦可以推广到除了平方误差损失的之外的任意损失函数,这意味着它是如矩阵分解一样广泛适用的。见补充材料备注2以得到更多细节。

    2.2 自适应松弛谱正则

    基于定理1中的松弛谱正则化方式,一个类似于贝叶斯概率矩阵分解BPMF的贝叶斯矩阵补全算法可以直接导出。设先验αk, βk为单位球体内的均匀哈尔Haar先验;dk的先验为指数分布,其后验与P2的形式完全相同。这种算法与BPMF应该有类似的表现。

    我们考虑另一个修正形式,每个dk都有一个正的正则化参数γk,代替构建P2模型。显然,这是一个松弛谱正则的[Office6] æ³å并æ¿è®¤å®ä½ä¸ºä¸ä¸ªç¹ä¾[Office7] 。我们定义自适应松弛谱正则问题为:

    这种变化将更加灵活并且更好地弥合核范数和秩函数之间的差距,因此,较之标准核范数,其近似秩正则的能力更好。类似的想法之前出现在(Todeschini, Caron, and Chavent 2013) 并被称为分层自适应核范数(HANN)。但是,需要注意,尽管我们提出与分层自适应核范数类似的方法,我们的正则化因为约束松弛的引入与其在本质上是不同的。

    然而,由于超参数调参的困难,P3可能比原来的P2更难解决,自适应正则引入了更多的动态超参数。在下一节,我们将为这些超参数建立层次化先验和推导求解P3的贝叶斯算法,并同时推断超参数。

    3 自适应松弛谱正则化的贝叶斯矩阵补全

    3.1 概率模型

    译者注:本节中加粗的拉丁字母表示向量。

    我们现在把P3带入等效的最大后验MAP评估。自然地,P3对平方误差损失对应于负对数高斯似然Xij ∼ ,在此uki表示在uk的第i个元素;vkj亦然。关于先验分布,我们使用单位球下的均质哈尔先验作用于UVd服从指数先验,总结如下:

    其中,表示一个非归一概率密度函数(p.d.f)。可以证明,在这个概率模型下,负对数后验[Office8] 的概率密度p.d.f. 关于 (d, U, V[Office9] )与P3成正比。

    现在,我们将正则化系数γ := {γk: k[r]}作为随机变量并假设其存在gamma先验,即p(γk) γk a-1e-bγk , γk ≥ 0, k [r]。这有两个明显的优势:(1)正则化系数包含于统一的贝叶斯框架,这样,这些系数的值可以自动推断,而不需要作为超参数调优。(2)dk 的先验以边缘化吸收 γ 变成 p(dk) =  =  ,这实际上是一个等效的帕累托分布。与指数分布相比,此分布存在重尾 (Todeschini, Caron, and Chavent 2013) ,因此将[Office10] å¶ç¨çå¼å¯¼[Office11] å¯ä»¥å¾å°æ´å¥½çææ[Office12] (Bach et al. 2012)。

    图模型如图1所示,我们显式地分离X的观测项(即PΩ(X))和非观测项(即PΩ(X))。由于条件独立的结构,我们可以简单地以边缘分布吸收PΩ(X),进而得到联合分布:

    所有的变量隐式地约束于相应的有效域。

    3.2 推断

    我们现在展示GASR(自适应松弛谱正则的吉布斯抽样)算法以推断后验,做出预测,并通过蒙特卡罗EM算法估计超参数(Casella 2001)。

    后验推断N(μ,σ2;a,b)表示在区间[a, b]内截取的正态分布N(μ,σ2)(简称为短截[Office13] 高斯)。我们通过吉布斯抽样器推断后验分布p(γ , d, U, V | a, b, σ, PΩ (X )),解释如下:

    样本γ: 正则化系数 γ 的条件分布为gamma分布。我们通过公式γk∼ ,k[r] 抽样γ

    样本d: 在条件(γ, U, V)下,各个dα [r]) 的分布均为短截高斯,dα,其中,A =, B= +σ2 γα

    样本UV: 给出其他变量,uα(或vα) 中各元素分布是短截[Office14] 高斯,uαβ , α[m], β[r],其中,C=, D=和ρ = 。一个类似的过程可以推导vαβ样本,因此省略。

    吉布斯抽样器的每次迭代时间复杂度是O(|Ω| r2)。虽然,累积分布函数(c.d.f)反演的抽样短截分布有一个统一的方案,但是,由于实验中发现其数值不稳定,我们没有使用它。相比之下,简单的非抽样方法被证明可以很好地使用。

    预测:有了后验分布,我们以后验均值填补缺失元素:

    这个积分是非常困难的,但是,我们以抽样近似积分,并补全矩阵。因为我们使用高斯似然,我们有:

    因此,我们可以将缺失元素表示为xij = , (i, j) Ω, PΩ(X)后验抽样均值。这里,我们将f(x)的抽样均值计作,其中,xi是样本个体和n是样本的数量。

    超参数估计:我们通过最大化模型的判据p(PΩ(X)| a ,b ,λ)选择超参数(a, b, σ)。因为直接优化很困难,我们采用一个带有隐变量L:= (d, U, V, γ )的EM算法。为了计算关于PΩ(X)L联合期望,我们使用蒙特卡罗EM(Casella 2001),它可以充分利用吉布斯抽样器获得的样本。

    PΩ (X)LL(L | PΩ(X)的期望可以写成

    其中C是一个常数。方程(3)可以使用Newton–Raphson迭代关于a, b, σ最大化。定点方程为:

    其中,Ψ(x)Ψ(x)分别为digammatrigamma函数。在我们的实验中,我们发现结果对使用的样本数量不是很敏感,所以我们固定到5。

     

    4 实验

    我们现在展示合成数据集和真实数据集上的实验结果,证明秩重建和矩阵补全的有效性。

    4.1 合成数据实验

    我们做了两个合成数据实验,一个是为了进行秩重建,另一是为了研究在非常稀疏的情况矩阵的算法表现。

    在这两个实验中,我们生成标准正态随机矩阵Am×qBn×q并产生秩-q矩阵Z = AB。然后我们使用信号噪声比1与标准高斯噪声污染Z,得到观测X

    秩重建:在这个实验中,我们设置m = 10qn = 10q。算法从5到45对q进行测试。我们将秩短截r设置为100,对于所有数据这已经足够大。对于每个Z矩阵,迭代次数固定在1000,最后的结果是200个样本(前800个丢弃老化)平均值得到的。我们简单地以均匀分布UV的范数固定为0.9和所有d固定为零的条件初始化取样器。我们在X的所有元素上运行吉布斯抽样器来重建Z

    在谱正则中,我们可以通过非零dk的数量简单地计算得到的隐变量的数目。然而,由于我们的方法使用MCMC抽样,找到那些完全弥散的dk是很困难的。与直接计数非零元素(d1,d2,···, dr)不同,我们以升序排列元组,试图找到w = arg maxk≥2 dk / dk1然后丢弃{ dk: dk < dw }。因此,恢复的秩为rw+1。图2的中间面板提供了如何确定隐变量的数目的一个示例。

    该实验结果的总结如图2(c),显示恢复的秩与真实值非常接近。当真实的秩会相对较小时,我们的算法能够很好地重建;秩增高时,表现稍差。这可能是由于更大的秩需要更多的迭代次数确保收敛。

    我们还在图2(a)说明了向量在合成数据矩阵中如何实现自正交。向量的正交性由其的2-范数和两两对内积的均值量度。图2(a)表明,U和V在一个迭代后即接近正交。这一现象表明,向量在分层贝叶斯模型中仍然倾向于正交。

    不同的缺失率:我们生成不同大小和不同的缺失率的矩阵来测试我们的方法的性能,并且与BPMF对比,因为它是唯一一个可以在真实数据集与GASR对比的算法,在下一节将详细说明。

    根均方误差(RMSE)结果在表1中列出。补充材料报告了偏差和一些额外的设置。我们可以看到,当观察矩阵只有少量元素的情形下, GASR是明显优于BPMF的,展示了通过稀疏引导先验的GASR估计的鲁棒性。

    4.2 真实数据集的协同过滤

    我们在MovieLens 1M2和EachMovie数据集测试算法,并与各对比算法比较结果,包括最大边界矩阵分解(M3F) (Rennie and Srebro 2005),无限概率最大边界矩阵分解(iPM3F) (Xu, Zhu, and Zhang 2012), softImpute (Mazumder, Hastie, and Tibshirani 2010), softImpute-ALS (“轮换最小二乘” “ALS”) (Hastie et al. 2014), 分层自适应softImpute (HASI) (Todeschini, Caron, and Chavent 2013) 和贝叶斯概率矩阵分解(BPMF) (Salakhutdinov and Mnih 2008).

    MovieLens 1M2 数据集包含6040个用户对3952部电影的1000209个评级。评级是从{ 1,2,3,4,5 }中的整数中挑选,每个用户都至少有20个打分。EachMovie 数据集包括74424用户对1648部电影的2811983条打分。像(Marlin 2004 )那样,我们删除了冗余数据并且丢弃了不到20次评级的用户,从而剩下了36656个用户。可能有从0到1的6个可能评级,我们将它们映射到{ 1,2,···,6 }。

    协议: 我们随机将数据集分割成80%的训练和20%的测试。我们进一步分割20% 的训练数据,并用于M3F, iPM3F, SoftImpute, SoftImpute-ALS 和HASI的验证进行超参数调优。BPMF和 GASR可以从训练数据推断超参数,因此不需要验证。我们使用RMSE和归一化平均绝对误差(NMAE)测量性能。NMAE (Goldberg et al. 2001)中被定义为:

    其中,Ωtest是测试元素的索引集。

    实施细则: 取样器的迭代次数固定为100次,E[PΩ(X)] 的估计值为从100次抽样的均值。我们以生成均匀分布UV和将dk都设置为0初始化算法。我们也规范ukvk的范数为 0.9的初始化条件。图3显示了我们的取样器在此相当的简单初始化下几次迭代后收敛。

    我们使用RsoftImpute 以实现softImpute 和SoftImpute-ALS,并使用对应作者提供的M3F, iPM3F, HASI 和BPMF的代码。M3F, iPM3F, SoftImpute, SoftImputeALS和HASI的超参数通过验证集上的网格搜索进行选择。我们随机初始化除HASI外的所有方法,其初始化为SoftImpute的结果,正如(Todeschini, Caron, and Chavent 2013)所建议的那样。BPMF结果平均超过100个样本,和我们的一样。

    对于所有的算法,我们设定最大迭代次数为100。MovieLens 1M和EachMovie 的秩短截均 r 置为30,我们遵循(Todeschini, Caron, and Chavent 2013) 的设置,并在实验中发现,更大的 r 并不能显著的改进其性能。

    结果: 表2给出了NMAE和RMSE 5次重复实验的平均值及其标准差。总体而言,我们可以看到我们的GASR方法比大多数的基准线相比达到更优良的性能。更具体地说,我们有以下的观察:

    (一)在MovieLens数据集,GASR与BPMF(当前最优的贝叶斯低秩矩阵补全方法)相当,然而,在 EachMovie数据集上优于BPMF(EachMovie的观测数据集缺失(97.8%)比MovieLens的缺失(95.8%)稀疏)。在两个数据集中,较之iPM3F,当前最优的基于IBP(Griffiths and Ghahramani 2011)矩阵补全非参数贝叶斯方法,GASR获得更低的RMSE。这样的结果证明基于谱正则贝叶斯矩阵补全的可靠性。此外,由于其稀疏引导先验d,GASR产生稀疏解。在MovieLens和EachMovie推断的秩均值都为10,但iPM3F推断的隐变量数目为30,这是秩短截水平。据(Xu, Zhu, and Zhang 2013)报道,在类似的实验设置中发现,由吉布斯iPM3F(一个无秩短截的iPM3F模型的吉布斯抽样版本)推断的最佳潜在维度在MovieLens上为450,EachMovie 上为200,都比我们的要大得多。

    (二)与HASI,采用自适应谱正则非贝叶斯方法和其他基于平方误差损失的非贝叶斯方法(即SoftImpute和SoftImpute-ALS) 相比,我们的方法在这两个数据集均得到更好的结果,证明贝叶斯推断的优点。此外,HASI有比SoftImpute更好的性能,展现了自适应性的好处。

    (三)基于最大边界的方法(即M3F 和iPM3F)在指标NMAE上较之我们的方法有稍微更好的性能,但却不如我们在RMSE上结果。一个可能的原因是,这些方法都是基于最大边界标准,自然地最小化绝对错误,然而,我们的方法(和其他方法)都是基于平方误差最小化损失。另一个原因,也可能是最重要的一个原因是M3F 和iPM3F预测整数值,然而,我们的方法(和其他方法)提供实值的预测。我们发现仅仅舍入这些实值预测为整数即可极大地提高NMAE指标。例如,将我们的GASR预测值舍入到最近的整数后,在MovieLens和EachMovie数据集上的NMAE指标分别为0.1569±0.0006,0.1877±0.1877。

     

    5 结论

    我们提出一个新颖的自适应谱正则贝叶斯矩阵补全方法。我们的方法展现了结合自适应松弛谱正则的分层贝叶斯推断的优势,从而避免参数调优。我们使用蒙特卡洛(随机模拟)估计超参数,其吉布斯抽样器在合成数据和真实数据集上的秩推断和协同过滤均表现出良好的性能。

    我们的方法是基于一个定理1的新的形式化方法。这些结果可以很容易进一步推广到其他有噪势函数。对于吉布斯抽样器,我们也可以扩展到非高斯势函数,只要其存在常规概率密度以保证有效抽样。

    最后,虽然,本文使用吉布斯抽样,但是,基于定理1研究其他贝叶斯推断方法也是有趣的,因为其可以避免关于施蒂费尔流形的困难。此类研究可能获得更多具有更好收敛特性的可扩展算法。此外,更好的初始化方法较之均匀的随机数生成可能加速收敛,例如,几次迭代HASI的结果通常可以提供一个很好的启动点。

    致谢

     

    该研究工作由国家基础研究计划(973计划),中国(编号2013CB329403, 2012CB316301)、中国国家NSF(编号61322308,61322308)、清华信息科学与技术国家实验室大数据计划和清华计划科学研究项目(20141080934)支持。我们感谢清华大学物理系承担了一部分研究费用。

     

    参考文献

     

    Bach, F.; Jenatton, R.; Mairal, J.; and Obozinski, G. 2012. Optimization with sparsity-inducing penalties. Foundations and Trends in Machine Learning 4(1):1–106.

    Byrne, S., and Girolami, M. 2013. Geodesic Monte Carlo on embedded manifolds. Scandinavian Journal of Statistics 40(4):825–845.

    Casella, G. 2001. Empirical Bayes Gibbs sampling. Bio-statistics 2(4):485–500.

    Dobigeon, N., and Tourneret, J.-Y. 2010. Bayesian orthogonal component analysis for sparse representation. IEEE Transactions on Signal Processing 58(5):2675–2685.

    Fazel, M. 2002. Matrix rank minimization with applications. Ph.D. Dissertation, Stanford University.

    Goldberg, K.; Roeder, T.; Gupta, D.; and Perkins, C. 2001. Eigentaste: A constant time collaborative filtering algorithm. Information Retrieval 4(2):133–151.

    Griffiths, T. L., and Ghahramani, Z. 2011. The Indian buffet process: An introduction and review. Journal of Machine Learning Research 12:1185–1224.

    Hastie, T.; Mazumder, R.; Lee, J.; and Zadeh, R. 2014. Matrix completion and low-rank SVD via fast alternating least squares. arXiv preprint arXiv:1410.2596.

    Hoff, P. D. 2009. Simulation of the matrix Bingham–von Mises–Fisher distribution, with applications to multivariate and relational data. Journal of Computational and Graphical Statistics 18(2).

    James, I. M. 1976. The topology of Stiefel manifolds, volume 24. Cambridge University Press.

    Lim, Y. J., and Teh, Y. W. 2007. Variational Bayesian approach to movie rating prediction. In Proceedings of KDD Cup and Workshop, volume 7, 15–21. Citeseer.

    Marlin, B. 2004. Collaborative filtering: A machine learn- ing perspective. Ph.D. Dissertation, University of Toronto.

    Mazumder, R.; Hastie, T.; and Tibshirani, R. 2010. Spectral regularization algorithms for learning large incomplete matrices. Journal of Machine Learning Research 11:2287– 2322.

    Rennie, J. D., and Srebro, N. 2005. Fast maximum margin matrix factorization for collaborative prediction. In International Conference on Machine Learning, 713–719.

    Salakhutdinov, R., and Mnih, A. 2008. Bayesian probabilistic matrix factorization using MCMC. In International Conference on Machine Learning.

    Srebro, N.; Rennie, J.; and Jaakkola, T. S. 2004. Maximum-margin matrix factorization. In Advances in Neural Information Processing Systems, 1329–1336.

    Stiefel, E.1 1935. Richtungsfelder und fernparallelismus in n-dimensionalen mannigfaltigkeiten. Commentarii Mathematici Helvetici 8(1):305–353.

    Todeschini, A.; Caron, F.; and Chavent, M. 2013. Probabilistic low-rank matrix completion with adaptive spectral regularization algorithms. In Advances in Neural Information Processing Systems, 845–853.

    Xu, M.; Zhu, J.; and Zhang, B. 2012. Nonparametric max-margin matrix factorization for collaborative prediction. In Advances in Neural Information Processing Systems, 64–72.

    Xu, M.; Zhu, J.; and Zhang, B. 2013. Fast max-margin matrix factorization with data augmentation. In International Conference on Machine Learning, 978–986.



    译者: 

                                                                                                                   宋飏 朱军

    计算机科学与技术系,智能技术与系统国家重点实验室;CBICR 中心;

    清华大学, dcszj@mail.tsinghua.edu.cn

    展开全文
  • 基于属性优化结构化噪声矩阵补全技术,提出一种鲁棒的抗托攻击个性化推荐(SATPR)算法。将攻击评分视为评分矩阵中的结构化行噪声,并采用L2,1范数进行噪声建模,同时引入用户与物品的属性特征以提高托攻击检测精度...
  • 本文将针对推荐系统中基于隐语义模型的矩阵分解技术来进行讨论。 NO.1 对于一个推荐系统,其用户数据可以整理成一个user-item矩阵矩阵中每一行代表一个用户,而每一列则代表一个物品。若用户对物品有过评分...
  • 本文出自Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence (IJCAI-17) ...本文主要讨论有界的矩阵填充问题(BMC)的概念,即对标准矩阵填充问题增加有界约束的问题。实践证
  • 推荐系统 - 矩阵分解(SVD)原理和实战

    千次阅读 2020-04-11 16:19:55
    一. 特征分解 1.1 特征求解: 1.2 标准化: 1.3 特征分解条件 二. SVD 2.1 定义 2.2 求解方法 2.3 相关特性  2.4 SVD的python实现 ...三....3.3 矩阵分解推荐小结 3.4 SVD实现用户评分预测(MovieLens数据
  • 传统图像补全算法和使用深度学习的补全算法,有何不同点?以下这篇文章带你看看华中大提出的新型采样与重建算法,这种算法能够提升稀疏深度稠密补全任务性能。公众号:将门创投 (thejiangmen)From: HUST; 编译: T.R...
  • 矩阵填充|奇异值阈值算法

    千次阅读 2020-01-06 21:59:36
    斜风细雨作小寒,淡烟疏柳媚晴滩。入淮清洛渐漫漫。 雪沫乳花浮午盏,蓼茸蒿笋试春盘。人间有味是清欢。...而低秩是相对于矩阵而言,低秩体现在矩阵的秩远小于矩阵的实际尺寸。其次,稀疏向量恢复问题可以...
  • 1.矩阵分解 1.1 矩阵分解的产生原因 1.2矩阵分解作用 1.3矩阵分解的方法 1.4推荐学习的经典矩阵分解算法 2. 特征值分解(EVD) 3. 奇异值分解(SVD) 4.SVD++ 5.SVD/SVD++在协同过滤中的应用 1. 矩阵分解...
  • 论文阅读笔记:知识图谱补全算法综述论文:丁建辉, 贾维嘉. 知识图谱补全算法综述[J]. 信息通信技术.概念表示学习相关理论知识图谱表示学习静态知识图谱补全(static KGC)动态知识图谱补全(Dynamic KGC) 论文:丁建辉...
  • 将鲁棒主成分分析、矩阵补全和低秩表示统称为低秩矩阵恢复, 并对近年来出现的低秩矩阵恢复算法进行了简要的综述。讨论了鲁棒主成分分析的各种优化模型及相应的迭代算法, 分析了矩阵补全问题及求解它的不精确增广...
  • 在 CVPR 2021 上,南洋理工大学 S-Lab 与商汤 IRDC 团队合作提出变分关联点云补全网络 (VRCNet)。如 Fig.1(a) 所示,VRCNet 首先预测出粗略形状框...
  • 矩阵分解方法 概述

    2020-07-25 18:32:44
    用于矩阵补全。eg:推荐系统中,填补评分矩阵中的空缺项。 分解后的矩阵有一些实际的意义。eg: 三角分解 LU分解(LR分解) 这部分可以参考我之前的博客,链接 QR分解 这部分可以参考我之前的博客,链接 奇异值
  • 使用矩阵分解技术补充打分矩阵中空白部分
  • 构建自动补全系统 计算所有可能的下一个单词的概率,并建议最有可能的单词。此函数还采用可选参数start_with,它指定下一个单词的前几个字母。 estimate_probabilities返回一个字典,其中key是单词,value是单词的...
  • 图像补全 – 使用飞桨复现 SIGGRAPH 2017 论文 Globally and Locally Consistent Image Completion 本项目代码使用 PaddlePaddle 框架进行实现 应用场景:图像补全(Image completion),目标移除(Object remove) 本文...
  • 这将我们引向离散矩阵补全的框架,在该框架中,类似于EM的算法对实值矩阵补全进行迭代,以进一步优化结果并提供优于纯朴实舍入技术的性能。 动机 该问题的主要动机之一是将其应用于基因组学中的单倍型定相。 输入...
  • 上述内容首先介绍了MPC的价值及来源,然后详述了两方安全计算的技术实现原理,主要包括GC和OT算法,并对一些技术基础知识做了简要概述。 二、JUGO与MPC 1.JUGO定位  针对企业级用户,基于MPC的安全数据...
  • 下载2 在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总,即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D...
  • A Survey on Graph Neural Networks for Knowledge Graph ...最近在看图谱补全相关的内容,现在比较多的方向是采用图嵌入的方式进行学习,这篇论文综述了图神经网络在补全上的应用,值得读一读 二级目录 三级目录 ...
  • 为实现基于公交IC卡数据的大规模OD(origination-destination)矩阵推导,提出了一种不关联公交调度信息和GPS数据的OD矩阵推导算法。提出了站点序号标注算法,通过时间聚类思想设计了自适应调整的时间间隔阈值以判断...
  • 在填充图片的缺失或损坏的部分时,图像补全和修复是两种密切相关的技术。有很多方法可以实现内容识别填充,图像补全和修复。在这篇博客中,我会介绍 Raymond Yeh 和 Chen Chen 等人的一篇论文,“基于感知和语境损失...
  • 我们简要讨论了不变表示学习的最新技术,并总结了相关深度补全技术。 具有稀疏输入的CNNs: 处理稀疏输入的简单方法是将无效值归零或为网络创建额外的输入通道,以编码每个像素的有效性。为了检测激光扫描中的...
  • 一、概述 在slam 和sfm领域,恢复相机位姿和3D点的坐标是其重要的任务,描述一个场景的3D点在不同相机的图像坐标之间的关系被称为对极几何关系。对极几何关系描述的矩阵通常有基本矩阵(f...
  • 推荐系统中的矩阵分解总结

    万次阅读 多人点赞 2018-08-26 12:07:47
    最近学习矩阵分解,但是学了好多种类,都乱了,看了这篇文章,系统性的总结了矩阵分解,感觉很棒,故分享如下: 前言 推荐系统中最为主流与经典的技术之一是协同过滤技术(Collaborative Filtering),它是基于这样...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 3,588
精华内容 1,435
关键字:

矩阵补全技术