精华内容
下载资源
问答
  • 工程数据特征的稀疏性
    2019-11-05 11:21:18

    工程数据特征的稀疏性

    从一个简单的例子说起,相信大多数人学过线性代数或者矩阵论之类的课程吧,再线性代数中,最初始的时候就会学到关于如何判断一大堆向量线性的相关或者不相关性,进而确定一组线性无关组。这里比如说空间中一个向量X是一个三维坐标点吧,用(x,y,z)表示。假设现在有一堆点X1(1,0,0);X2(0,1,0);X3(0,0,1);X4(4,3,5);X5(2,1,4)……等等吧,那么我们是不是可以找到这一大堆向量的最大线性无关组其实就可以用X1,X2,X3来表示,其他的任何向量Xi都可以用这三个向量来线性表示,当然用X1,X2,X3来表示任何一个向量来表示是最简单情况,你一个向量同样可以用X1,X2,X3,X4,X5来表示,不过这个多两个待确定系数而已。好了现在假设我们已知有X1X10这十个向量,那么同空间中有一个向量我们就可以用X1X10这十个向量线性表示,就有10个待确定系数。但是我们事先是知道一个向量只需要用X1,X2,X3来表示即可了,那么我们可以让上面需要确定的10个参数中的后7个参数约束为0即可,那么其实这个过程就是一种稀疏表示思想。可以看出稀疏表示就是找到空间中的一组基,用这组基可以扩展到空间中的任何向量。稀疏表示的好处在于降低表示复杂度,更直白的原因其实就是减少系数参数,通过稀疏表示,可以充分发挥数据所含有的信息,去掉冗余的数据信息,达到最大化利用数据,这一点是非常重要的。被稀疏表示的特征即是稀疏特征。

    详细以下:
    https://blog.csdn.net/on2way/article/details/50389968

    更多相关内容
  • 个性化推荐中的数据稀疏性

    千次阅读 2021-07-17 16:25:43
    个性化推荐中数据稀疏性怎么理解 造成的原因是什么? 每个领域对稀疏性的定义和解决方法都不一样,拿感兴趣地点推荐来说。 假定我拥有一群在上海的用户和他们最近一个月所到过的地点的记录。现在我想根据他所去过的...

    个性化推荐中数据稀疏性怎么理解 造成的原因是什么?

    每个领域对稀疏性的定义和解决方法都不一样,拿感兴趣地点推荐来说。
    假定我拥有一群在上海的用户和他们最近一个月所到过的地点的记录。现在我想根据他所去过的地点来给用户推荐一个用户感兴趣的地点。通常来说有两种推荐方式:基于用户的协同过滤算法基于地点的协同过滤算法基于用户的协同过滤算法大体分如下两步来进行:找到与用户 A 最相似的用户 B推荐 B 去过而 A 没去过的地点到这里,很自然我们想问如何找到与用户 A 最相似的用户 B,一个很直接的办法就是,只要谁去过的地方和 A 所去过的地方重合的最多,那么这个用户和 A 是最为相似的。

    然而,这个方法通常在现实中是行不通的(并不是说这个方法无效),为什么呢?为了阐释这个问题,我们先来看下面两条句子:”小明喜欢去太平洋咖啡喝咖啡""小天喜欢去星巴克喝咖啡"其实小天和小明都喜欢喝咖啡,但是去的地方不同,上面那个方法则会认为小明和小天并不相似。我们可以说是地理空间稀疏性(Sparseness of Geographic Spaces)导致的,而导致稀疏性的原因就是小明的地点太过于详细,太过于详细则可能无法找到相似的人,这个问题的解决办法是对所到过的地点转换成语义地点(Semantic Location)。其实所谓的语义地点,就是将地点进行贴标签分类,譬如说将”太平洋咖啡“和”星巴克咖啡“都归类为”咖啡“。将”天虹商场“和”沃尔玛“都归类为”超市“。不难理解,语义化后,就更加容易找到相似的用户了,那么,也就可以更好的推荐用户感兴趣的地点了。基于地点的协同过滤算法也是类似的处理方法。


    1.交互矩阵稀疏矩阵分解协同过滤是经典的推荐算法,都可能存在交互(评分)矩阵稀疏的问题。矩阵分解需要”用户-物品”交互矩阵,这时候的数据稀疏,是由于用户的评分记录太少,交互矩阵的非零项很少。矩阵分解的优点就是相对能较好地处理数据稀疏问题。基于用户的协同过滤算法,主要思想就是相似用户有相似的喜好。当我们计算用户之间的相似度时,用户用评分向量表示,等价于计算不同用户的评分向量的相似度。如果评分向量大部分为空(几乎没有评分),没有区分度,这样的相似度衡量就不太准确。基于物品的矩阵分解类似。
    2.数据高维特征个性化推荐系统特别是基于深度学习的推荐算法,必然需要引入用户和物品或上下文特征。类别特征需要one-hot处理,很容易高维稀疏,例如ID类特征。3.长尾稀疏对于长尾商品或新商品,用户历史信息较少,例如历史点击、购买记录,如果使用session-based类的推荐方法,可能会存在预测阶段物品的历史数据稀疏的问题。


    现在待处理的推荐系统规模越来越大,用户和商品(也包括其他物品,譬如音乐、网页、文献……)数目动辄百千万计,两个用户之间选择的重叠非常少。如果用用户和商品之间已有的选择关系占所有可能存在的选择关系的比例来衡量系统的稀疏性,那么我们平时研究最多的MovieLens数据集的稀疏度是4.5%,Netflix是1.2%,这些其实都是非常密的数据了,Bibsonomy是0.35%,Delicious是0.046%。想想淘宝上号称有8亿商品,平均而言一个用户能浏览800件吗,我估计不能,所以稀疏度应该在百万分之一或以下的量级。数据非常稀疏,使得绝大部分基于关联分析的算法(譬如协同过滤)效果都不好。这个问题本质上是无法完全克服的,为了解决这个问题,也有很多办法,譬如可以通过扩散的算法,从原来的一阶关联(两个用户有多少相似打分或者共同购买的商品)到二阶甚至更高阶的关联(假设关联性或者说相似性本身是可以传播的)[8],也可以添加一些缺省的打分[9],从而提高相似性的分辨率。数据规模越大,一般而言越稀疏,现在能够处理稀疏数据的算法被认为是更有前途的(譬如扩散[8]、迭代寻优[10],转移相似性[11]等等)。

    为了解决深度学习数据少,和数据稀疏, 目前业界的主流方法有一下5种:

    1.数据增广

    数据增广,主要是想,对现有的数据,添加噪声等各种其他变换,从而产生一些有意义的数据,是的数据集增加,从而解决数据稀疏的问题,提升模型性能。 特别的,如图所示,Zachary Lipton 介绍了近期他的一个工作:利用 GAN来做图像数据增广。

    2.半监督学习

    半监督学习的情形是指:我们拥有少量的标注样本(图中橘色部分)以及大量的未标注样本(图中蓝色部分)。

    半监督学习,一般的思路是:在全部数据上去学习数据表示,在有标签的样本上去学习模型,用所有数据去加正则。

    3.迁移学习

    迁移学习,主要是想,在一个拥有大量样本的数据(图中蓝色部分)上去学习模型,在改动较少的情况下,将学习到的模型迁移到类似的目标数据(图中橘色部分)和任务上。

    4.领域自适应

    领域自适应,主要是想,在已有的标注数据p(x,y)上学习模型, 然后尝试在另一个分布上q(x,y)上去做应用。

    5.主动学习

    主动学习,维护了两个部分:学习引擎和选择引擎。学习引擎维护一个基准分类器,并使用监督学习算法对系统提供的已标注样例进行学习从而使该分类器的性能提高,而选择引擎负责运行样例选择算法选择一个未标注的样例并将其交由人类专家进行标注,再将标注后的样例加入到已标注样例集中。学习引擎和选择引擎交替工作,经过多次循环,基准分类器的性能逐渐提高,当满足预设条件时,过程终止。

    参考文献:
    [1] Li Q, Zheng Y, Xie X, et al. 2008, Mining user similarity based on location history[C], Proceedings of international conference on advances in geographic information systems, pp: 34.
    [2] Xiao X, Zheng Y, Luo Q, et al. 2010, Finding similar users using category-based location history[C], Proceedings of international conference on advances in geographic information systems, pp: 442-445
    [3] https://www.zhihu.com/question/38815541/answer/1126267700
    [4] https://www.zhihu.com/question/38815541/answer/132325785
    [5] http://blog.sciencenet.cn/home.php?mod=space&uid=3075&do=blog&id=554630
    [6] http://www.elecfans.com/d/727983.html

    展开全文
  • 介绍了现有协同过滤推荐的几种主要算法。它们对数据稀疏性问题都有一定的缓和作用。通过在数据集MovieLens上的实验,分析了各个算法在不同稀疏度下的推荐质量,为针对不同数据稀疏度的系统实现提供了可靠依据。
  • 基于数据稀疏性的协同过滤推荐算法改进研究.pdf
  • 为解决传统协同过滤算法中用户评分数据稀疏性所带来的用户最近邻寻找不准确问题, 提出了一种结合条件概率和传统协同过滤算法的非固定k近邻算法。该算法在基于分步填充评分矩阵的思想上, 第一步只接受相似度和共同...
  • 一种缓解互惠推荐系统中数据稀疏性的算法.pdf
  • 自动作文评分对数据稀疏性的性能敏感性研究
  • 数据稀疏性下的移动路径预测混合模型
  • 推荐系统数据稀疏性问题

    千次阅读 2018-08-22 22:00:33
    推荐系统数据稀疏性问题 对于目前大规模的电子商务平台,如淘宝、ebey,其用户、商品数量都非常大。淘宝数据显示,2010年淘宝网注册用户达到3.7亿,在线商品数达到8亿,最多的时候每天6000万人访问淘宝网,平均每...

    推荐系统数据稀疏性问题

    对于目前大规模的电子商务平台,如淘宝、ebey,其用户、商品数量都非常大。淘宝数据显示,2010年淘宝网注册用户达到3.7亿,在线商品数达到8亿,最多的时候每天6000万人访问淘宝网,平均每分钟出售4.8万件商品。假如我们要做User-Item的协同过滤算法,那么U-I矩阵大小是6000万 ×8亿。在这个数量级上面做协同过滤,即使用hadoop,计算起来也非常吃力,效果也比较差。

    让我们看看为什么效果比较差。在U-I矩阵中,用户平均浏览的商品数量比较小,根据周涛【1】的估计,平均每个用户的浏览宝贝数量不超过800。实际上,平均每个用户的商品浏览数量可能不超过20.那么在U-I矩阵中,只有6000万×20的entry是有值的,稀疏的度达到 20/8亿=2.5e-08,小于百万分之一。在这个规模下,任意两个用户的浏览的商品交集都是比较小的。

    在淘宝平台,不同于amazon或者豆瓣,同样的物品(商品)有很多卖家都可以出售。如果用户浏览了同种商品的一个,其实我们可以认为他浏览了所有类似的商品。也就是说我们想通过商品的聚类,为了减少数据量,扩大用户的共同浏览量。商品聚类有很多方法,在比较规范的手机数码聚类简单一些,然后在女装男装等类目聚类更复杂。因为女装可能从风格等角度去聚类更简单一些。

    还有一个角度是减少用户量,那么对于相似的用户可以聚类。不管用什么聚类方法,当面对数千万用户和数亿商品的时候,计算量是一个比较大的挑战。如何减少不必要的技术,在尽可能短的时间内得到计算结果是非常重要。

    http://blog.sciencenet.cn/home.php?mod=space&uid=3075&do=blog&id=554630

    展开全文
  • 什么是稀疏数据

    千次阅读 2021-10-21 15:21:40
    稀疏数据是指,数据框中绝大多数数值缺失或者为零的数据。在现代社会中,随着信息的爆炸式增长,数据量也呈现出爆炸式增长,数据形式也越来越多样化。在数据挖掘领域,常常要面对海量的复杂型数据。其中,稀疏数据这...

    定义

    稀疏数据是指,数据框中绝大多数数值缺失或者为零的数据。在现代社会中,随着信息的爆炸式增长,数据量也呈现出爆炸式增长,数据形式也越来越多样化。在数据挖掘领域,常常要面对海量的复杂型数据。其中,稀疏数据这一特殊形式的数据正在越来越为人们所注意。

    稀疏数据绝对不是无用数据,只不过是信息不完全,通过适当的手段是可以挖掘出大量有用信息的。然而在一些情况下,数据的稀疏程度甚至会达到 95%以上,这使得传统的统计方法不适于处理此类数据。 [1]
    在这里插入图片描述

    来源

    稀疏数据的来源与产生原因可以有很多种。大致归结起来,主要可以概括为以下几个种类:
    由于调查不当产生的稀疏数据

    这种稀疏数据常见于问卷调查和电话调查中,如果问卷问题设置不当,过于繁杂难懂,就会导致被调查者产生厌烦心理,草草回答几个问题了事。然而已经回答的问题又是有效问卷的一部分,不能做遗弃处理,假若这种问卷大量出现,那么就会出现稀疏数据。
    由于天然限制产生的稀疏数据

    这种稀疏数据常见于电子商务领域,例如淘宝网、沃尔玛等网购网站或超市中。由于每个客户客观上不可能把所有商品购买一遍,所以他们的客户购买记录必然只是对海量商品中一小部分的记录。这样,客户购买记录必然是一个稀疏数据。
    文本挖掘中产生的稀疏数据

    在文本挖掘领域,为了比较几篇文章是否属于同一主题,常用的算法是首先选定一批关键词,通过不同文章中这些关键词出现的频率来进行判断。而这一批关键词常常会有成千上万个,而每篇文章基本只包含其中几十到几百个关键词,那么由此产生的数据也就是一个稀疏数据了。
    医学造影成像领域

    现代医学常常要借助 CT、B 超、核磁等手段造影成像,作为判断病情的重要手段。其中 CT 成像是由若干射线源与接收器来采集数据,在实际应用中,受到设备、病人条件等限制,常常不能做到全角度扫描,故而在成像算法上也常常要面对稀疏数据。

    稀疏聚类

    针对稀疏数据的另一个研究方向就是对稀疏数据的聚类与降维。稀疏数据不同于一般数据,它的维度常常极其巨大,并且由于大量的缺失值的存在,使得数据信息极端不完整,常见的降维方法例如主成分、因子分析等无法在此上应用。

    针对这一情况,很多学者开始研究探索一些其他的方法来解决这一问题。谢宁新在他发表的文章中,提出利用二进制数来计算稀疏相似度,进而进行聚类。他首先引用了稀疏特征的二进制码概念,通过设定一个阈值 b,将稀疏矩阵中大于 b 的数用1 表示,小于 b 的用 0 表示,将稀疏矩阵转换成了二进制码矩阵。然后采用二进制数的布尔 AND 运算,计算 u1AND u2,其中 u1和 u2分别表示两个样本的二进制码序列。AND 具体的运算规则是,若两条序列中,同一位置的二进制码同为 1,则返回数值 1;否则返回数值 0。最后计算 u1AND u2中数字 1 的个数,将之作为两样本的相关性。并进而将相关性显著大的样本聚为一类。

    该二进制码算法在一定程度上克服了稀疏数据计算相似度的困难,并且有着运算速度极高的特点,但是应用局限较大。将数据转换成二进制码本身会损失大量信息,对于高度稀疏的数据来说,人为地损失到本就很稀少很珍贵的数据信息,并不是一个明智的选择。
    此外,赵雅琴等人的研究中,给出了稀疏相似度、等价关系相似度、广义等价关系等概念。他们也同样是首先将稀疏数据进行二进制码的转换,然后利用不同项目间的稀疏相似度和等价关系,得出初始等价类,然后再对初始等价关系利用等价关系相似度进行修正,从而使聚类结果更为合理。

    在数据挖掘领域里也常常有一些算法概念被借鉴过来,有学者提出了一种改进的局部线性嵌入算法(locally linear embedding),通过一种非线性映射,在不改变原始数据空间流形的前提下,将高维样本映射到低维空间中去。针对于稀疏数据,他采用一种联合局部线性嵌入(united locally linear embedding),并通过实验表明了良好的降维效果。

    恢复问题

    稀疏信号是指绝大多数元素为 0 的信号, 与同样长度的普通信号相比, 它包含的信息较少。 因此, 稀疏信号可以充分地压缩, 从而节约储存空间, 减少传输量。近年来, 数据的稀疏性在压缩传感、信号/图像处理、大数据分析与处理、机器学习和统计推断等领域受到广泛关注并获得了成功的应用。 数据恢复是指将遭到干扰或者破坏的数据还原成真实数据。 数据被干扰或破坏的原因有很多, 如存储和传输介质的影响、测量仪器与观测过程产生的误差以及外界噪声的干扰等等。 数据恢复问题广泛存在, 例如, 稀疏信号压缩传感问题 (Compressed Sensing Problem,简称 CS 问题);低秩矩阵完整化问题 (Matrix Completion Problem, 简称 MC 问题); 基于全变差正则化 (Total-Variation based Regularization) 的图像恢复问题(Image Reconstruction Problem, 简称 TVIR 问题)。 上述三类问题的共同特点是需要恢复的数据具有某种稀疏结构, 因此称为稀疏数据恢复问题。 稀疏数据恢复问题的数学规划模型一般具有特殊结构, 如目标函数的可分性、向量的稀疏性、矩阵的低秩性等。 如何高效地从病态的线性反问题中唯一且稳健地恢复出特定的信息是许多学者长期以来致力于研究的重要课题。 [2]

    应用场景

    稀疏数据广泛存在于各种应用场景中,如:在分布式管理系统Condor中用户可以自己定义新的属性,因此,在一个数据集中很多属性几乎都是空值;同时,稀疏数据还大量存在于电子商务的应用中,每位商家都可以定义自己商品或者订单特有的属性,从而使得数据有成千上万的属性值,如中有5000个属性,但是对于每个元组,这些属性值几乎都是空值;在医学、地球科学等领域,存在着大量的稀疏数据。 [3]

    展开全文
  • 根据网络数据稀疏结构变化,自适应构建最优稀疏变换基,同时在字典学习问题中引入无线传感器网络数据稀疏基的可压缩约束,以满足无线传感器网络中大规模数据处理特点及稀疏变换的高实时要求。理论分析和仿真结果...
  • 传统上,通常假定数据稀疏性是基于用户的协作过滤算法的一个大问题。 然而,分析仅基于数据量而不考虑数据质量,这是数据的重要特征,稀疏的高质量数据可能对算法有利,因此分析是单方面的。 在本文中,首先在真实的...
  • 稀疏性假设的历史 (1)稀疏性Sparsity 百度百科 Sparsity is the condition of not having enough of something;the property of being scanty or scattered; lacking denseness. [Vocabulary.com] 稀疏性是一...
  • 原文链接:RS:推荐系统中的数据稀疏和冷启动问题 如何在没有大量用户数据的情况下设计个性化推荐系统并且让用户对推荐结果满意从而愿意使用推荐系统,就是冷启动问题。 冷启动问题主要分为三类: (1) 用户冷...
  • 基于稀疏性深度学习的航拍图像超分辨重构.pdf
  • 绘制微生物稀疏性曲线,从CSV读取文件选出表示observe otu的列,并绘制散点图。
  • 基于ReLU稀疏性的MAXOUT卷积神经网络的数据分类算法.pdf
  • 协同过滤系统的稀疏性与冷启动问题研究,挺好的一个文档
  • 针对现有压缩感知算法无法有效利用视觉传感器网络中图像数据相关性的问题,提出一种基于树状稀疏模型的视觉传感器网络数据压缩感知算法。在分析图像数据小波域稀疏特性的基础上,构建了一种视觉传感器网络图像数据的...
  • 协作主题排名:利用项目元数据来减少稀疏性
  • 如何在没有大量用户数据的情况下设计个性化推荐系统并且让用户对推荐结果满意从而愿意使用推荐系统,就是冷启动问题。 冷启动问题主要分为三类: (1) 用户冷启动:如何给新用户做个性化推荐的问题,新用户刚使用...
  • Pytorch实施“探索图像超分辨率中的稀疏性以进行有效推理”,CVPR 2021 强调 在细粒度级别上查找和跳过SR网络中的冗余计算,以进行有效的推理。 通过显着降低FLOP并加快移动设备的速度来保持最先进的性能。 基于...
  • 高校图书馆图书推荐系统中的稀疏性问题实证探析.pdf
  • 受监督的与数据相关的内核稀疏性保留投影,用于图像识别
  • 数据相关的内核稀疏性保留投影及其在半监督分类中的应用
  • AugmentedGaussianProcesses.jl:基于数据扩充,稀疏性和自然梯度的高斯过程软件包
  • 大数据-算法-面向稀疏性数据的协同过滤推荐算法的研究与实现.pdf
  • 浅谈压缩感知(十):范数与稀疏性 问题: 压缩感知中算法会通过L0,L1范数建立的数学模型得到一个稀疏解,那么为什么L0,L1范数会导致一个稀疏解呢? 分析与解释: 1、范数 常见的有L0范数、L1范数、L2范数,...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 101,968
精华内容 40,787
关键字:

数据稀疏性