精华内容
下载资源
问答
  • 介绍了现有协同过滤推荐的几种主要算法。它们对数据稀疏性问题都有一定的缓和作用。通过在数据集MovieLens上的实验,分析了各个算法在不同稀疏度下的推荐质量,为针对不同数据稀疏度的系统实现提供了可靠依据。
  • 原文链接:RS:推荐系统中的数据稀疏和冷启动问题 如何在没有大量用户数据的情况下设计个性化推荐系统并且让用户对推荐结果满意从而愿意使用推荐系统,就是冷启动问题。 冷启动问题主要分为三类: (1) 用户冷...

    原文链接:RS:推荐系统中的数据稀疏和冷启动问题

    如何在没有大量用户数据的情况下设计个性化推荐系统并且让用户对推荐结果满意从而愿意使用推荐系统,就是冷启动问题。

    冷启动问题主要分为三类: 
    (1) 用户冷启动:如何给新用户做个性化推荐的问题,新用户刚使用网站的时候,系统并没有他的行为数据; 
    (2) 物品冷启动:解决如何将新的物品推荐给可能对它感兴趣的用户; 
    (3) 系统冷启动:如何在新开发网站设计个性化推荐系统,此时网站上用户很少,用户行为也少,只有一些商品的信息。

     

    协同过滤推荐基于这样的假设:为用户找到他真正感兴趣的内容的方法是,首先找与他兴趣相似的用户,然后将这些用户感兴趣的东西推荐给该用户。所以该推荐技术最大的优点是对推荐对象没有特殊的要求,能处理非结构化的复杂对象,如音乐、电影等,并能发现用户潜在的兴趣点。协同过滤推荐算法主要是利用用户对项目的评分数据,通过相似邻居查询,找出与当前用户兴趣最相似的用户群,根据这些用户的兴趣偏好为当前用户提供最可能感兴趣的项目推荐列表。为更进一步地说明协同过滤推荐算法的推荐原理,本文以用户对电影的推荐为例进行阐述。表1 是用户对电影评分数据的一个简单矩阵的例子,其中每一行代表一个用户,每一列代表一部电影,矩阵中的元素表示用户对所看电影的评分,评分值一般是从1到5 的整数,评分值越大表明用户喜欢该电影。

     

    对表1 中的数据利用协同过滤推荐算法,系统查找到用户Alice、Bob 和Chris 具有相似的兴趣爱好,因为他们对后3 部电影的评分相同,那么系统会推荐电影Snow white 给Chris,因为与其兴趣偏好相似的用户Alice 和Bob 对该电影的评分值较高。在表2 中,对于新用户Amy,没有评分信息,根据协同过滤推荐算法,无法根据评分信息查找与其兴趣偏好相似的用户,所以系统无法为该用户推荐电影,同样对于新电影Shrek,因缺乏评分信息系统无法感知它的存在,所以也无法将其推荐出去。这就是协同过滤推荐算法所存在的新用户和新项目问题。

     

     

    补充一些对于冷启动的解决方法:

    推荐系统冷启动在不同的产品,不同的应用场景会有不同的做法,通用的做法其他的知友都已经有说明,即通过不同的维度获取用户的基本特征,操作习惯,从而进行粗粒度的推荐,但确实说起来容易做起来难。因为在中国,只有几家比较大的如腾讯,阿里,百度掌握着用户的行为数据,小公司做起来有点知易行难的感觉,在这里分别说说自己的一些思路和方法

    1. 利用用户在其他地方已经沉淀的数据进行冷启动。在腾讯等大公司的产品,确实是可以通过各大产品打通的日志系统,提取用户的行为特征去确定用户是个什么样的人。比如现在QQ音乐的猜你喜欢电台想要去猜测还没有用过QQ音乐用户的口味偏好,一大优势在于可以利用其他腾讯平台的数据,比如在QQ空间关注了谁,在腾讯微博关注了谁,这些都可以作为推荐系统的冷启动数据,甚至进一步,比如在腾讯视频刚看了一部很火的动漫,如果在QQ音乐推荐了一首这个动漫的主题曲,你是否会觉得很惊喜呢?=P 所以,在这方面可以做的尝试,就是获取用户在其他平台已有的数据。题主担心的是一个初创网站或app用户注册前还没有他的数据表现,不妨尝试将注册路径改为用新浪/QQ/微信等社交平台登录,一方面可以降低用户注册成本提高转化率,一方面可以同时获得用户的社交信息,从而获得推荐系统的冷启动数据。举个大家都应该知道的产品——“今日头条”,号称5秒钟知道你的兴趣偏好,其实也是在用户登录新浪等社交平台后,获取用户的关注列表,以及爬取用户最近参与互动的feed(转发/评论/赞)进行语义分析,从而获取用户的偏好。这种方法无论公司或平台大小,其实都可以尝试,会比盲目的热门推荐效果会好。
    2. 利用用户的手机等兴趣偏好进行冷启动。Android手机开放度较高,因此对于各大厂商来说多了很多了解用户的机会,就是——用户除了安装的应用之外,还安装了其他什么应用。举个例子,当一个用户安装了美丽说,蘑菇街,辣妈帮,大姨妈等应用,是否就是基本判定该手机用户是个女性,且更加可以细分的知道是在备孕还是少女,而安装了rosi写真,1024客户端带有屌丝气质的应用则可以锁定用户是个屌丝,此时对于应用方来说,是一个非常珍贵的资源。比如一个新闻应用如今日头条,拿到了这些用户安装应用的数据,用户首次安装就可以获得相对精准的推荐,不明真相的用户还会暗赞我靠这应用这么符合我口味!目前读取用户安装的应用不仅是APP应用商店的标配,新闻类,视频类做数据推荐的应用也有一些开始读取这块的数据,这个对于冷启动是相当有帮助的。当然,这种数据也要为用户做好保密和数据加密。另外如豌豆荚锁屏,360卫士app更是做了检测用户每天开启应用的频率等等,这种相比只了解用户安装什么应用,对用户的近期行为画像会更为精准。
    3. 制造选项,让用户选择自己感兴趣的点后,即时生成粗粒度的推荐。相对前面两个来说,路径不够自然,用户体验相对较差,但是给予足够好的设计,还是能吸引用户去选择自己感兴趣的点,提升转化率。比如网易云音乐的私人FM,由于没有其他用户行为数据,做口味测试则变得很重要了。而简单幽默的文案引导加上简单的几个选择,也不失为一个好的冷启动方法。

     

    展开全文
  • 推荐系统——数据稀疏度计算

    千次阅读 2020-06-17 21:08:28
    数据稀疏度其实就是指在user-item矩阵中,有评分数据的元素占整个矩阵空间的比率。例如:有M个user,N个item,共K个评分: 1-(K/(M*N))

    数据稀疏度其实就是指在user-item矩阵中,无评分数据的元素占整个矩阵空间的比率。例如:有M个user,N个item,共K个评分:

    1-(K/(M*N))
    
    展开全文
  • 为解决传统协同过滤算法中用户评分数据稀疏性所带来的用户最近邻寻找不准确问题, 提出了一种结合条件概率和传统协同过滤算法的非固定k近邻算法。该算法在基于分步填充评分矩阵的思想上, 第一步只接受相似度和共同...
  • 推荐系统数据稀疏性问题

    千次阅读 2018-08-22 22:00:33
    推荐系统数据稀疏性问题 对于目前大规模的电子商务平台,如淘宝、ebey,其用户、商品数量都非常大。淘宝数据显示,2010年淘宝网注册用户达到3.7亿,在线商品数达到8亿,最多的时候每天6000万人访问淘宝网,平均每...

    推荐系统数据稀疏性问题

    对于目前大规模的电子商务平台,如淘宝、ebey,其用户、商品数量都非常大。淘宝数据显示,2010年淘宝网注册用户达到3.7亿,在线商品数达到8亿,最多的时候每天6000万人访问淘宝网,平均每分钟出售4.8万件商品。假如我们要做User-Item的协同过滤算法,那么U-I矩阵大小是6000万 ×8亿。在这个数量级上面做协同过滤,即使用hadoop,计算起来也非常吃力,效果也比较差。

    让我们看看为什么效果比较差。在U-I矩阵中,用户平均浏览的商品数量比较小,根据周涛【1】的估计,平均每个用户的浏览宝贝数量不超过800。实际上,平均每个用户的商品浏览数量可能不超过20.那么在U-I矩阵中,只有6000万×20的entry是有值的,稀疏的度达到 20/8亿=2.5e-08,小于百万分之一。在这个规模下,任意两个用户的浏览的商品交集都是比较小的。

    在淘宝平台,不同于amazon或者豆瓣,同样的物品(商品)有很多卖家都可以出售。如果用户浏览了同种商品的一个,其实我们可以认为他浏览了所有类似的商品。也就是说我们想通过商品的聚类,为了减少数据量,扩大用户的共同浏览量。商品聚类有很多方法,在比较规范的手机数码聚类简单一些,然后在女装男装等类目聚类更复杂。因为女装可能从风格等角度去聚类更简单一些。

    还有一个角度是减少用户量,那么对于相似的用户可以聚类。不管用什么聚类方法,当面对数千万用户和数亿商品的时候,计算量是一个比较大的挑战。如何减少不必要的技术,在尽可能短的时间内得到计算结果是非常重要。

    http://blog.sciencenet.cn/home.php?mod=space&uid=3075&do=blog&id=554630

    展开全文
  • 一种有效缓解数据稀疏问题的协同过滤推荐算法 (1).pdf
  • 协同过滤推荐系统中数据稀疏问题的解决.pdf
  • 改进的面向数据稀疏的协同过滤推荐算法.pdf
  • 1. 稀疏表示理论背景 1.1. 稀疏表示的由来 1.2. 啥是高维数据 1.3. 高维数据的特点 1.4. 稀疏表示原理 2. 过完备字典完成稀疏表示理论计算理论 2.1. 稀疏求解的方法 2.2. 字典构造的方法 3. 总结 稀疏表示...

    稀疏表示理论背景

    稀疏表示的由来

    稀疏表示理论最早是在研究信号处理应用中发展起来得。其基础是多尺度分析理论,在此基础上拓展,形成了相应的理论框架。主要是通过少数的稀疏稀疏来逼近原信号。近年来,稀疏表示的方法主要应用于信号处理和图像处理方面。

    啥是高维数据

    这里,信号和图像都可以看成是一个数据对象在所有维度上的信号,本文统称为“数据对象”。因此,不难看出,这种数据对象必然是一个高维的。何为高维?举个栗子:比如对一个10个人的薪酬表的描述。表的行是这10个人;列是这是个人的属性,比如姓名、生日、职位、基本工资、工作年限等一共20个属性。那么这个表就是一个10*20的表。每个人即一个数据对象,是20维的。那么问题来了,比如一个人脸的图像(简化一下,不是自拍照,是一寸照。再简化一下,比如这个图像要求的清晰度不高,只要32*32像素的)。那么可以理解成这个图像有32*32个点,每个点有一个表示颜色的数值(再进一步简化,这是黑白照片,每个点的数值表示的是这个点的深浅程度)。那么这个照片就有32*32=1024个点。如果我们有这要的照片100张,每张照片都有1024个表示颜色深浅的数据,那么就得到了一个100*1024的表。这明显是高维了。而真正的图像中,不可能是32*32的吧(难道都是小霸王里的超级玛丽?),要再是彩色的,俺的苍天啊,这个维度就更高了,高到我不想举例子了。在实际工作的研究领域,一般20维以上即可以算作是高维数据了。

    高维数据的特点

    1. 维灾:这个名字太贴切了,维度增加带来的灾难。这个概念是一个叫Bellman的大叔在1962年提出来的(好像不是大叔,大爷都不止了)。意思是对于一个多变量的函数,随着维数的增加(变量的增加),这样高维数据问题往往转化成为了一个多变量的优化求解问题。但由于维度太高了,传统的算法就不行了。比如,每个数据对象理解成一个点,我们一般用k近邻的概念时要找到距离这个点最近的k个点。但是在高维空间中,最近的点和最远的点的距离随维度增加而减小,换句话说,维度增加让远点和近点的差异减小,趋近于零。所以单纯用传统办法解决高维问题,没戏了。(这里的例子实际上是高维聚类问题)
    2. 未标记(UNlabeled):所谓标记,就是上面薪酬例子里的,姓名,年龄,这些东西,可以理解成为属性(即维度)的名字。但是现在这个社会,得到的大量数据往往是未标记的。比如,一个电子商务系统中,大量不同商品评论的情感分析,如果去手动标注情感倾向(比如积极的、消极的、中立的)十分不现实,要有愚公移山的精神,那就是子子孙孙无穷匮也。但这样显然没有意义。这里针对有标记的数据的学习过程一般称为有监督的学习,无标记的,自然就是无监督(Unsupervised)学习了。而我们说的字典学习往往就是应用在无监督学习中。

    稀疏表示原理

    看了高维数据的特点,怎么解决呢?既然维度高了,那就降下来吧。所以问题就变成了,把高维数据用低维度表示的问题了。线代学得好的人这里可能想到了什么正交啊,基的问题。差不多就是这个意思。举个不是特别贴切的例子(实在找不到好理解的例子了),比如,你现在的位置怎么表述,东经多少,北纬多少,海拔多少,三个维度。但其实换一个说法,宿舍床上。一个维度。为啥维度变了呢,参照物变了,也就是所谓的基变了。这里的字典就是这个基。

    学术一点表示,字典就是一个矩阵(n维),这个矩阵比之前的的高维数据(k维)的维度要低得多,即n<<k。数据对象y可以表示成y=a1 x1 +…+an xn
    其中,xi 是字典的列向量,ai 是一个线性组合,称之为稀疏表示系数,整个ai 构成的矩阵记为A。所谓的稀疏表示,其实就是求这个系数的矩阵。为了实现稀疏,系数矩阵的很多值,都是0。

    过完备字典完成稀疏表示理论计算理论

    稀疏求解的方法

    通常情况下,构造一个目标函数,让A里面尽可能的出现0,这里就出现了L0 范数的概念。但开始一般用L_ 1范数求解。为什么L1 可以实现稀疏化,这要从L0 (0范数)说起。L0 范数表示向量中非零元素的个数。Donoho证明了在完备字典构成的矩阵满足一定条件的时候,L0范数优化问题是有解的,而且是唯一解。这样的稀疏化即直观(稀疏就是让变量变少,也就是很多变量的系数变为0),同时还有唯一解,为什么不用L0 范数,一定要o用L1 呢。很简单,L0 范数优化求解问题(L0 范数最小化)属于NP难问题(靠,又是这个东西)。当然,你可以用BMP,ROMP,OMP,OOMP,ORMP,SAMP等去求解L0 问题。然而,这些求解方法都是基于贪婪算法,效率很低,也就是说了等于白说。这时候,人类出大招了,Tao和Candes提出了近似求解该问题的方案,证明了在求解向量足够稀疏的情况下,L0 范数优化问题等价于L1 范数优化问题,即各向量分量绝对值之和。这样在多项式时间内就可以求解了,方法很多,不赘述了。
    总之,L1 主要追求了稀疏化,对应的作为牺牲,则不能保证数据对象接近稀疏表示y,也就是说数据对象间的局部结构特征没有完全地体现出来。这也是LASSO的一个不足之处。

    字典构造的方法

    字典的构造式寻找稀疏表示下的最优基的构造,既要满足系数条件唯一性的约束,同时要得到更精确和更稀疏的表示。主要有两类方法:基于数据模型的字典构造和基于学习算法的字典构造。

    1. 基于基于数据模型的字典构:运用组合正交基等一定的数学分析工具得到稀疏字典,主要包括小波变化、离散余弦变换等等,好多。
    2. 基于学习算法的字典构造:这个方法是使用机器学习相关技术从训练样本集中学习字典,包括了稀疏表示和字典更新,也就是说,字典可以自动更新,找到更好的解了。听起来更加高大上了吧。经典的基于学习的构建方法是是产生K-means聚类过程的K-SVD算法,K-SVD通过迭代策略结合稀疏表示的更新一更新字典,从而加速收敛。

    总结

    说白了,什么是字典学习呢?主要是在面对高维数据时,我们不好处理,所以变成好处理的低维数据(降维)。在这个过程中,有基于模型的方法,也有更高大上的基于学习的方法,这时候需要字典学习。这个工作的主要就是求一个稀疏表示系数矩阵A。

    转载于:https://www.cnblogs.com/Tavion/p/5166695.html

    展开全文
  • 基于数据稀疏性的协同过滤推荐算法改进研究.pdf
  • 一种缓解互惠推荐系统中数据稀疏性的算法.pdf
  • 一种有效缓解数据稀疏问题的协同过滤推荐算法.pdf
  • 基于过完备字典的点云数据稀疏表示,张勇,倪萍,随着三维扫描设备精度的不断提高,通过扫描设备所获取的点云数据也越来越大、越来越复杂,这给点云模型在网络资源有限的情况下,
  • 统计视角下面向数据稀疏问题的协同过滤推荐算法改进.pdf
  • 针对无线传感器网络节点位置移动及传输干扰等因素可导致数据稀疏结构改变的问题,提出一种基于字典学习的无线传感器网络自适应稀疏变换方法。根据网络数据稀疏结构变化,自适应构建最优稀疏变换基,同时在字典学习...
  • 教学单位计算机科学与技术 学生学号_5 HUBEI ENGINEERING UNIVERSITY 数据结构 课程设计报告书 题 目稀疏矩阵运算器 学生 专业名称 指导教师 实验目的 深入研究数组的存储表示和实现技术熟悉广义表存储结构的特性 ...
  • 数据平滑、维数灾难和数据稀疏

    千次阅读 2017-05-05 12:15:59
    dimensionality), 和 数据稀疏( data sparsity)。 维数灾难和数据稀疏通常是相伴而生的,因为维数的增大是的统计需要更多的样本来支撑,而当所谓的“维数灾难”产生时,是很难获得足够的样本数量来支撑统计的。...
  • 数据稀疏性下的移动路径预测混合模型
  • 高光谱数据稀疏分解的子空间匹配追踪
  • 网络游戏-利用神经网络计算单元中的输入数据稀疏.zip
  • 什么是稀疏数据

    2021-10-21 15:21:40
    稀疏数据是指,数据框中绝大多数数值缺失或者为零的数据。在现代社会中,随着信息的爆炸式增长,数据量也呈现出爆炸式增长,数据形式也越来越多样化。在数据挖掘领域,常常要面对海量的复杂型数据。其中,稀疏数据这...
  • 自动作文评分对数据稀疏性的性能敏感性研究
  • 如何在没有大量用户数据的情况下设计个性化推荐系统并且让用户对推荐结果满意从而愿意使用推荐系统,就是冷启动问题。 冷启动问题主要分为三类: (1) 用户冷启动:如何给新用户做个性化推荐的问题,新用户刚使用...
  • 空手道俱乐部数据 稀疏矩阵格式以及gml格式
  • 信息填充稀疏矩阵的方法 a content-collaborative recommender that exploits wordnet-based user profile for neighborhood formation 语义分析生成用户画像 用户画像聚类生成领域 按照item-baesd的方法计算...
  • 在统计语言模型章节中,我们谈到了N元语法模型不可避免的一个问题,就是数据稀疏,其原因是大规模语料统计与有限语料的矛盾。根据齐普夫(Zipf)法则,我们能够推测知零概率问题不可避免。数据稀疏问题的解决办法...
  • 数据稀疏问题 ( data sparseness ):指的是N元模型中,由于正确的词语搭配没有出现在训练集中而导致在处理过程中出现零概率的现象。 [from: ...
  • 稀疏表示可以将每个对象表示为其他对象的稀疏线性组合,并已用于聚类高维数据。 然而,所有系数都是盲目信任的,以构造可能遭受噪声并降低聚类性能的亲和度矩阵。 我们建议通过基于k 近邻(KNN)的稀疏表示系数向量...
  • 数据结构实验报告 稀疏矩阵计算器。稀疏矩阵是指那些多数元素为零的矩阵。利用“稀疏”特点进行存储(只存储非零元)和计算可以大大节省存储空间,提高计算效率。实现一个能进行稀疏矩阵基本运算的运算器。以“带行...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 142,760
精华内容 57,104
关键字:

数据稀疏