精华内容
下载资源
问答
  • Web结构挖掘

    2011-12-31 09:40:42
    概述了Web结构挖掘的有关概念和相关应用,详细分析和比较了基于超链接结构分析的网页排序的最权威算法,提出了有关Web结 构挖掘技术的几个新的研究方向,供感兴趣的同行参考。
  • 探究基于云计算的Web结构挖掘算法.pdf
  • 在对Web结构挖掘的典型算法探讨的基础上,提出了一种PageRank算法和HITS算法相结合的改进算法,并对该算法进行了简要分析。
  • Web结构挖掘中的PageRank算法改进。。为了描述PageRank 算法,我们作如下定义: 定义1 G( V , E) 表示Web 页面间的超链接结构有向图, V 为Web 页面的集合, E 为页面间链接的集 合。其中,有向边( p , q) ∈E 代表从页面...
  • Web结构挖掘算法概述及应用

    千次阅读 2007-03-25 13:42:00
    WEB结构挖掘算法概述及应用Web结构挖掘算法概述及应用[内容提要] Web 结构挖掘是对Web 的链接结构进行分析。本文概述Web结构挖掘技术,列举其常见算法。并对PageRank和HITS这两种最重要的Web结构挖掘算法分析比较...

     

     
     
    WEB结构挖掘算法概述及应用
    Web结构挖掘算法概述及应用
    [内容提要] Web 结构挖掘是对Web 的链接结构进行分析。本文概述Web结构挖掘技术,列举其常见算法。并对PageRank和HITS这两种最重要的Web结构挖掘算法分析比较。通过对算法规律的研究,指出在网站设计规划时的策略以提高网站的价值。
     
    [关键词]Web结构挖掘 PageRank HITS
     
    Summarization and application of Web Structure Mining arithmetic
    Abstract:  This paper introduces the conception of Web structure mining, and analyses the authoritative algorithms based on Web hyperlink structure. At the end, correlative application on increasing the rank of the website by Web structure mining algorithms.
     
    Key words:  Web Structure Mining ; PageRank;Hyperlink-Induced Topic Search (HITS);
     
    一、    引言
    数据挖掘是将人工智能技术和数据库技术紧密结合发展出的一门新的技术,利用计算机从庞大的数据中智能地、自动地抽取有价值的知识模式,以满足人们不同应用的需要。随着互联网的普及和迅猛发展、Web上信息量的爆炸式增长, 网上的资源得到极大丰富, 但也充斥着大量的垃圾信息, 人们迫切需要能从这些纷繁芜杂的信息中找到有用知识的工具。鉴于数据挖掘工具的日益成熟完善, 人们自然而然想到了要把数据挖掘技术应用到Web上来。
    Web挖掘指在WWW 上挖掘潜在的、有用的模式及隐藏的信息过程。根据对Web数据的感兴趣程度不同,Web挖掘一般可以分为三类:Web内容挖掘(Web Content mining)、 Web结构挖掘( Web structure mining)、 Web 用法挖掘(Web usage Mining)
    其中Web 结构挖掘是对Web 的链接结构进行分析, 以对超链接分析来评估基础Web 资源, 从而发现有用模式, 提高搜索质量。
    二、    Web结构挖掘综述
    传统的WEB搜索引擎大多数是基于关键字匹配的,返回的结果是包含查询项的文档,也有基于目录分类的搜索引擎。这些搜索引擎的结果并不令人满意。有些站点有意提高关键字出现的频率来提高自身在搜索引擎中的重要性,破坏搜索引擎结果的客观性和准确性。另外,有些重要的网页并不包含查询项。搜索引擎的分类目录也不可能把所有的分类考虑全面,并且目录大多靠人工维护,主观性强,费用高,更新速度慢。
    Web结构包括不同网页之间的超链接结构和一个网页内部的可以用HTML,XML表示成的树开结构,以及文档URL中的目录路径结构等。Web页之间的超链接结构中包含了许多有用的信息,当网页A到网页B存在一个超链接时,则说明网页A的作者认为网页B的内容非常重要,且两个网页的内容具有相似的主题。因此,指向一个文档的超链接体现了该文档的被引用情况。如果大量的链接都指向了同一个网页,我们就认为它是一个权威页。这就类似于论文对参考文献的引用,如果某一篇文章经常被引用,就说明它非常重要。这种思想有助于对搜索引擎的返回结果进行相关度排序。从WWW的组织结构和链接关系中推导知识。通过对Web站点的结构进行分析、变形和归纳,将Web页面进行分类,分析一个网页链接和被链接数量以及对象来建立Web自身的链接结构模式,确定不同页面间的相似度和关联度信息。定位相关主题的权威站点,可以极大的提高检索结果的质量。
    基于这种超链分析的思想,Sergey Brin和Lawrence Page在1998年提出了PageRank算法,同年J. Kleinberg提出了HITS算法,其它一些学者也相继提出了另外的链接分析算法,如SALSA,PHITS,Bayesian等算法。这些算法有的已经在实际的系统中实现和使用,并且取得了良好的效果。
    三、    WEB结构挖掘常见算法
    1、           PageRank算法
    PageRank算法是Web超链接结构分析中最成功的代表之一。该算法由Stanford大学的Brin和Page提出,是评价网页权威性的一种重要工具。搜索引擎Google、Yahoo、Baidu都是利用该算法和anchor text标记、词频统计等因素相结合的方法对检索出的大量结果进行相关度排序,将最权威的网页尽量排在前面。
    1)        PageRank 基本原理
    传统情报检索理论中的引文分析方法是确定学术文献权威性的重要方法之一,即根据引文的数量来确定文献的权威性。PageRank 的发明者对网络超链接结构和文献引文机制的相似性进行了研究,把引文分析思想借鉴到网络文档重要性的计算中来,利用网络自身的超链接结构给所有的网页确定一个重要性的等级数,当从网页A 链接到网页B 时,就认为”网页A 投了网页B 一票”,增加了网页B 的重要性。最后根据网页的得票数评定其重要性,以此来帮助实现排序算法的优化,而这个重要性的量化指标就是PageRank 值。
    但是网页和学术上的出版文献的差别是很大的。首先学术论文的出版发表非常的严格,而网页的出版非常自由、成本很低并缺乏控制,用一个简单的程序就可以产生大量的网页和很多链接。另外学术出版物的引文一般和文章的领域有关系,而网页的链接范围领域却很广。可见简单的链接数量计算并不能客观真实地反映网页的重要性,所以PageRank 除了考虑网页得票数(即链接) 的纯数量之外,还要分析为其投票的网页的重要性,重要的网页所投之票有助于增强其他网页的“重要性”。简单地说,PageRank 就是要从链接结构中获取网页的重要性,而网页的重要
    2)        PageRank 的实现
    PageRank在具体实现时会忽略掉Web页面上的文本和其它内容,只考虑页面间的超链接,把Web看成是一个巨大的有向图G =(V,E),结点vÎ V代表一个Web页面,有向边(p,
    q )Î E代表从结点p指向结点q的超链接,结点p的出度是指从页面p出发的超链接(outlink)的总数,而入度是指所有指向结点p的超链接(inlink)的总数。
    PageRank的具体定义如下:将Web对应成有向图,设W为该有向图结点的集合,N=|W|, Fi是页面i指向的所有页面的集合,Bi是指向页面i的所有页面的集合。对每个出度为0的结点S,设FS ={有向图中全部N个结点},则所有其他结点的Bi={B È i S},这样可以将结点S所具有的PageRank值均匀地传递给其他所有页面。PageRank的具体迭代公式为 。
    其中,参数 d是 取值0到1之间的衰减因子,因为任何一个网页的作者都认为其它的网页不如自己的重要。d通常被置为0.85。
    PageRank的实现过程为:将网页的URL对应成唯一的整数,把每一个超链接用其整数ID存放到索引数据库中,经过预处理(如去除数据库中的悬摆指针)之后,设每个网页的初
    始PR值为1,通过以上的递归算法计算每一个网页的PageRank值,反复进行迭代,直至结果收敛。
    2、           HITS算法
    1)        HITS基本原理
    Hill Top 算法的指导思想和PageRank 是一致的,即都通过反相链接的数量和质量来确定搜索结果的排序权重。但超链接的应用存在着许多的潜在的问题,如大量的链接是为了导航(如“点击此按钮返回主页”)或付费广告而创建的。而出于商业竞争的原因,尽管内容相关,有些网站又不会把超链接指向他们的竞争对手(如:Cisco公司不会将超链接指向Sun公司的主页)。
    HITS算法他认为网页的重要性应该依赖于用户提出的查询请求。而且对每一个网页应该将其authority权重(由网页的outlink决定)和hub权重(由网页的inlink决定)分开来考虑,通过分析页面之间的超链接结构,可以发现以下两种类型的页面:
    中心网页(hub):一个指向权威页的超链接集合的Web页
    权威网页(authority):一个被多个Hub页指向的权威的Web页

    中心网页( hub
    权威网页( authority

    HITS算法发现,在很多情况下,同一主题下的权威网页(authority),如上例所述Cisco和SUN,之间并不存在相互的链接。所以,权威网页(authority)通常都是通过中心网页(hub)发生关联的。
    HITS算法描述了权威网页(authority)和中心网页(hub)之间的一种依赖关系:一个好的中心网页(hub)应该指向很多好的权威性网页(authority),而一个好的权威性网页(authority)应该被很多好的中心性网页(hub)所指向。
    2)        HITS的实现
    HITS首先利用一个传统的文本搜索引擎(例如AltaVista)获取一个与主题相关的网页根集合(root set).然后向根集合中扩充那些指向根集合中网页的网页和根集合中网页所指向的网页,这样就获得了一个更大的基础集合(base set).假设最终基础集合中包含N 个网页,那么对于HITS 算法来说,输入数据就是一个N×N 的相邻矩阵A,其中如果网页i 存在一个链接到网页j,则A ij=1,否则A ij=0。
    HITS 算法为每个网页i 分配两个度量值:中心度hi 和权威度ai.设向量a=(a 1,a 2, … ,a N)代表所有基础集合中网页的权威度,而向量h=(h 1,h 2, …,h N)则代表所有的中心度.最初,将这两个向量均置为u=(1,1, … ,1).操作In(a)使向量a=ATh,而操作Out(h)使向量h=Aa.反复迭代上述两个操作,每次迭代后对向量a 和h 范化,以保证其数值不会使计算溢出.Kleinberg 证明经过足够的迭代次数,向量a 和h 将分别收敛于矩阵ATA 和AAT 的主特征向量.通过以上过程可以看出,基础集合中网页的中心度和权威度从根本上是由基础集合中的链接关系所决定的,更具体地说,是由矩阵ATA 和AAT 所决定
    3、           其它算法及归类
    链接分析算法可以用来提高搜索引擎的查询效果,可以发现WWW上的重要的社区,可以分析某个网站的拓扑结构,声望,分类等,可以用来实现文档的自动分类等。归根结底,能够帮助用户在WWW海量的信息里面准确找到需要的信息。这是一个正在迅速发展的研究领域。
    PageRank和HITS是算法中应用最广的两种,而其它一些类似的算法有的处于研究阶段,有的已经在具体的系统实现了。这些算法大体可以分为3类,基于随机漫游模型的,比如PageRank,Repution算法,基于Hub和Authority相互加强模型的,如HITS及其变种,基于概率模型的,如SALSA,PHITS,基于贝叶斯模型的,如贝叶斯算法及其简化版本。所有的算法在实际应用中都结合传统的内容分析技术进行了优化。一些实际的系统实现了某些算法,并且获得了很好的效果,Google实现了PageRank算法,IBM Almaden Research Center 的Clever Project实现了ARC算法,多伦多大学计算机系实现了一个原型系统TOPIC,来计算指定网页有声望的主题。
    四、    PageRank与HITS算法比较
    显而易见,两者均是基于链接分析的搜索引擎排序算法,并且在算法中二者均利用了特征向量作为理论基础和收敛性依据。但两种算法的不同点也非常明显。
    PageRank是对WWW的整体分析,通过模拟在WWW上的随机游动对每一个网页计算其PageRank值。因此该算法是独立于用户查询的,可以对用户要求产生快速的响应。HITS算法是对WWW的局部分析,是根据特定的查询产生不同的根集,然后计算网页的Authority值和Hub值。该算法是依赖于用户查询的,实时性差。
    HITS算法存在“主题漂移”的现象,如用户在查询“量子物理学”时,由于算法中需要对初次检索结果的根集扩充成基集,最终的检索结果中会包含大量的有关“物理学”的站点。因此,HITS适合与宽主题的查询,而PageRank则较好地克服了“主题漂移”的现象。
    五、    应用WEB结构挖掘算法提高网站价值
    1、           选择链接策略
    在互联网的海洋中,最重要的就是互联互通,不被其他网站引用的网站就是“信息孤岛”。WEB结构挖掘引擎所有算法都将网页中的链接作为主要挖掘的对象,特别是实际应用中,大多数用户都是使用基于PageRank算法的Google, Yahoo,Baidu都搜索引擎,因此可以采取以下几种策略,提高网站的排名。
    1)        广泛链接策略
    来自其他网站的任何反相链接都是有用的。当前常见的新搜索引擎已经不再只是网站目录的索引,而是更全面的网页索引,所以无论来自其他网站任何地方的反相链接都是非常有价值的。
    同时如果一个网页只有大量的进入链接,而缺乏导出链接,也会被搜索引擎认为是没有价值的站点。保证你的网站能够帮助搜索引擎更准确地判断哪些是对用户最有价值的信息,也就是说如果你的网站只有外部反向链接而没有导出链接的话,也会对你的网站在搜索结果中的表现带来负面影响。
    2)        高质量链接策略
    被PageRank高的网站引用能更快地提高PageRank数量只是关键因素之一,来自PageRank高的页面的链接还能更快的提高被链接目标的PageRank
    3)        无空链接策略
    应当保持网站自身的健康,经常利用坏链检查工具检查网站中是否有死链。同时保持网页内容/链接的稳定性和持久性:在搜索引擎索引中网页存在的历史也是一个比较重要的因素,而且历史比较久的网页被链接的几率越高。为了保证自己网页能够被比较持久的被其他网站的页面引用,如果自己网页中有链接更新时,最好能保留旧的页面并做好链接转向,以保持内容的连续性。
    2、           构建友好的网站结构
    有了合适的链接,就可以在算法中取得一个比较理想的分值,但由于数据的挖掘过程中由机器Spider自动完成。因此还必须考虑让引擎能完整的采集到所设计的链接,这就需要构建友好的网站结构。
    1)        网站结构扁平化
    网站目录结构要扁平,因为每深一级目录,PAGERANK降低1-2个档次。假设首页是3,其子可能目录就是1了,更深可能就无法列入评级范围了。
    2)        表现和内容的分离
    遵循w3c的规范,使用更规范的XHTML和XML作为显示格式,JavaScript和CSS尽可能和网页分离,一方面提高代码重用度(也方便页面缓存),另外一方面,由于有效内容占网页长度的百分比高,也能提高相关关键词在页面中的比重也增加了。因为挖掘引擎会更倾向于<title><h1><h2>……之间的内容,而不是正文。
    3)        建立站点地图
    让所有的页面都有能够快速入口:站点地图,方便网页爬虫(spider)快速遍历网站所有需要发布的内容。如果首页就是用Flash或图片进入的话,无异于将搜索引擎拒之门外,除了UI设计的用户友好外,spider 友好也是非常重要的。
    六、    结语
    网络的结构挖掘技术已经是比较成熟的技术,特别是PageRank算法已经应用到各大搜索网站中。所有的结构挖掘算法都是基于网页结构中超链接的分析。所不同的仅仅只是分析的效率改进和一些附加的分析条件。通过网站结构算法的研究,可以有效地采取应对措施,提高网站在搜索引擎中的排名。从而能网站可以有效的被客户搜索。随着电子商务的迅猛发展,企业应当尽早地重视这种被挖掘的技术应用,提高自身网站的价值。
     


    参考文献
    [ 1 ]    何晓阳、吴强、吴治蓉,HITS 算法与PageRank 算法比较分析,情报杂志2004 年第2 期
    [ 2 ]    王晓宇、周傲,万维网的链接结构分析及其应用综述,软件学报
    [ 3 ]    Dan Thies,Google PageRank排名新算法
    [ 4 ]    Sergey Brin,Lawrence Page,Google的技术剖析,http:// www.51web.biz
    [ 5 ]    曹军,Google 的PageRank 技术剖析,情报杂志2002 年第10 期
    [ 6 ]    杨海东、张莉,PageRank 技术分析与搜索引擎检索效率研究,淮阴师范学院学报(自然科学版),第2 卷第3 期,2003 年8 月
    [ 7 ]    吴军、孙从梅,数据挖掘技术在Web中的应用,内蒙古科技与经济,2004年第12期
    [ 8 ]    杨沅钊、吴薇、喻晓莉、杨国才,搜索引擎排名改进算法分析,《农业网络信息》2005 年第2 期
    [ 9 ]    陈灶芳黄国涛,用于互联网信息搜索系统的网络蜘蛛设计与实现,广东科技
    [ 10 ]          杨炳儒、李 岩、陈新中、王 霞,Web结构挖掘,计 算 机 工 程,2003年11月
    [ 11 ]          WEB超链分析算法纵览
    [ 12 ]          Web数据挖掘的研究现状及发展
    [ 13 ]          陈莉,焦李成.Internet/Web数据挖掘研究现状及最新进展.西安电子科技大学学报(自然科学版).2001年2月第28卷第1期.
    [ 14 ]          车东,如何提高网站在Google中的排名, http://www.zdnet.com.cn/
    [ 15 ]          车东,提高网站在Google中的排名——面向搜索引擎的网站设计
    [ 16 ]          如何评价网站的人气, http://www.zdnet.com.cn/developer/study/story/0,2000081626,39046113,00.htm
    [ 17 ]          数据挖掘未来研究方向及热点, http://www.stcsm.gov.cn/fuwuzhinan/fb/bf/know/20010531-1.asp
     
    展开全文
  • 优秀的研究生毕业论文,主题为Hits算法研究与改进,有一定的参考意义
  • 针对HITS算法、传统最大流算法在挖掘Web社区时存在主题漂移、噪音页面等问题,采用基于传递概率的边容量分配最大流改进算法,开发了一个改进的Web社区结构挖掘系统,详细描述了该系统的设计和实现过程。实验表明,...
  • web数据挖掘

    2014-01-09 10:49:59
    数据挖掘,web 数据挖掘 课件 Web挖掘是数据挖掘在Web上的应用,它利用数据挖掘技术从与WWW相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,涉及... 标签:web WEB挖掘 Web内容挖掘 WEB日志挖掘 WEB结构挖掘
  • WEB挖掘技术

    2018-06-30 14:26:45
    Web挖掘的意义 Web挖掘的数据来源 Web挖掘的分类 Web结构挖掘方法 Web访问信息挖掘方法 Web内容挖掘方法 WEB 挖掘发展趋势
  • Web挖掘又分为3种类型:Web使用挖掘、Web结构挖掘和Web内容挖掘。Web使用挖掘的数据源主要是Web日志文件,通过挖掘Web日志可以了解用户的访问模式。基于用户的访问模式,可以对网站的链接进行相应的修正;了解用户...
  • Web数据挖掘系统体系结构的研究与设计.pdf
  • 基于半结构特征分割的Web数据挖掘算法.pdf
  • Web挖掘的特征、分类及与其相关的技术和工具进行了分析,针对现有的Web使用挖掘研究中缺乏统一而有效的结构模型的问题,提出了一种有效的Web使用挖掘的体系结构,并详细地分析了利用该结构模型处理Web使用挖掘的...
  • Web挖掘又分为3种类型:Web使用挖掘、Web结构挖掘和Web内容挖掘。Web使用挖掘的数据源主要是Web日志文件,通过挖掘Web日志可以了解用户的访问模式。基于用户的访问模式,可以对网站的链接进行相应的修正;了解用户...
  • #资源达人分享计划#
  • 基于Web结构的数据挖掘中HITS算法的研究.pdf
  • 针对用户和查询之间的意图差距导致的查询模糊宽泛和数据稀疏问题,根据流行性和多样性返回可能子主题的排名列表,利用子主题选择与排序的分层结构进行Web 文本挖掘。首先,在名词性短语和可替代部分查询的基础上,...
  • 基于Web日志挖掘的网站结构优化方法
  • 搜索引擎已成为人们最普遍使用... 根据 Web挖掘的对象不同 , Web数据挖掘分为:Web内容挖掘 , Web结构挖掘和 Web使用记录挖掘。  Web内容挖掘是从文档内容或其描述中抽取有趣知识的一种过程,是一种基于网页内容元素对

          搜索引擎已成为人们最普遍使用的信息检索的工具 。该工具涉及到信息检索 、数据库、数据挖掘、人工智能 、分布式处理、自然语言处理等多个领域的理论和技术 ,因而具有综合性和挑战性 。

         根据 Web挖掘的对象不同 , Web数据挖掘分为:Web内容挖掘 , Web结构挖掘和 Web使用记录挖掘。

         Web内容挖掘是从文档内容或其描述中抽取有趣知识的一种过程,是一种基于网页内容元素对象的Web挖掘 。这些元素对象既有文本和超文本数据,也有图形、图像等多媒体数据;既有来自于数据库的结构化数据 , 也有用 HTML或 XML标记的半结构化数据和无结构的自由文本 .

         Web结构挖掘是从网页的超级链接中发现其结构及其相互关系 。通过找到隐藏在一个个页面之后的链接结构模型, 就可以利用这个模型对 Web页面重新分类,也可以用于寻找相似的网站。基于超级链接的拓扑结构, Web结构挖掘可以进行网页分类, 总结网页和网站的结构, 生成诸如网站间相似性、网站间关系的信息.

         Web使用记录挖掘是从用户“访问痕迹 ”中获取有价值的信息 ,是对 Web上日志数据及相关数据的挖掘。

         现代社会互联网上的信息呈现爆炸式增长趋势,为了从互联网上获得信息 ,用户通常使用搜索引擎这个网络信息检索工具 。用户在使用搜索引擎的时候,总是向它发送一些关键词。搜索引擎根据这些关键词在数据库中进行匹配,然后返回相关网址。在这种情况下会存在下列弊端:
        (1)命中率低:搜索引擎仅仅对用户输人的关键词进行匹配, 这样会返回一大堆 URL。而在这些URL指向的网页中并不一定包含用户感兴趣的信息 。

        (2)成本高 :用户在人工过滤网页中信息的时候 ,要花费大量的时间和精力, 同时还需要支付高额的网络使用费用 。

        (3)查询结果显示顺序比较混乱 ,有效性差。另外 ,在查询方式、个性化服务 、查全率和自然语言理解等方面都存在一些有待解决的问题。

          目前,中文个性化搜索引擎的开发已越来越引起了国人的注意,也吸引了越来越多的有识之士加人其中 ,虽然现在已经有了一定的基础 , 但它距离成为一个成熟的产品,道路还很漫长。搜索引擎的个性化服务使搜索引擎能够分析检索者的浏览行为来学习检索者的需求 ,利用搜索引擎的现有服务 ,有选择地为用户提供个性化服务 ,达到向用户推送他们真正感兴趣的信息。

          Web数据挖掘为搜索引擎的个性化服务提供了依据。搜索引擎一般由搜索器 、索引器、检索器和用户接口四个部分组成,Web数据挖掘是从大量的、不完全的、有噪声的 、模糊的 、随机的 Web内容中识别新颖的、有用的以及可理解的知识的过程 。在 Web内容挖掘中, 由于 Web文档中与搜索主题相关度低的关键字会带来不相关的检索信息, 因此 ,先采用粗糙集方法简化与搜索主题无关的属性 (关键字),以减少搜索空间, 提高搜索效率 ,然后利用关联规则挖掘方法对 Web内容进行分析 ,挖掘出有价值的知识。可以通过以下两种方式来实现从服务器端获取用户的相关信息:一般的访问模式挖掘和个性化的使用记录挖掘 。一般的访问模式挖掘通过分析用户使用记录来了解用户的访问模式和倾向;个性化的使用记录挖掘则倾向于分析单个用户的偏好 ,其目的是根据不同用户的访问模式, 为每个用户提供定制的站点。这种方法经常在一些大型的门户网站上被使用,用于跟踪不同用户的浏览习惯 ,以进行用户感兴趣的网页内容调查和生成不同编排内容的个性化浏览页面 。

         对用户数据的挖掘主要有两方面的内容 :一是如何提取用户的信息需求;二是获得用户需求的数据后, 如何利用数据挖掘技术对这些数据进行处理,以获取潜在知识及为用户所用。提取用户的信息需求, 可以通过由用户主动填写 、提供来获取用户的兴趣信息 。利用此方法来获取用户兴趣信息的方式主要有三种:(1)用户将自己感兴趣的信息或在线文档分类后提供给系统,系统从这些文档或信息中发现用户的兴趣。(2)用户提供自己的研究方向和其他阅读爱好等信息 ,系统从这些信息中发现用户的兴趣。实现此目标的一种常用方法就是让用户回答一些问题 。(3)用户对系统检索到的信息结果进行评价打分 ,系统通过用户反馈信息来更新用户的兴趣数据描述 。

    展开全文
  • 其中结构化数据的抽取、信息整合、观点挖掘Web使用挖掘等4章是《Web数据挖掘》的特色,这些内容在已有书籍中没有提及,但它们在Web数据挖掘中却占有非常重要的地位。当然,传统的Web挖掘主题,如搜索、页面爬取和...
  • 结构化多Web文本数据挖掘的研究.pdf
  • Web数据挖掘

    2007-09-14 11:50:11
    与传统数据和数据仓库相比,Web上的信息是非结构化或半结构化的、动态的、并且是容易造成混淆的,所以很难直接以Web网页上的数据进行数据挖掘,而必须经过必要的数据处理。典型Web挖掘的处理流程如下[3]:...
    Web挖掘指使用数据挖掘技术在WWW数据中发现潜在的、有用的模式或信息。Web挖掘研究覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。
    Web挖掘流程
    与传统数据和数据仓库相比,Web上的信息是非结构化或半结构化的、动态的、并且是容易造成混淆的,所以很难直接以Web网页上的数据进行数据挖掘,而必须经过必要的数据处理。典型Web挖掘的处理流程如下[3]:
    1.查找资源:任务是从目标Web文档中得到数据,值得注意的是有时信息资源不仅限于在线Web文档,还包括电子邮件、电子文档、新闻组,或者网站的日志数据甚至是通过Web形成的交易数据库中的数据。
    2.信息选择和预处理:任务是从取得的Web资源中剔除无用信息和将信息进行必要的整理。例如从Web文档中自动去除广告连接、去除多余格式标记、自动识别段落或者字段并将数据组织成规整的逻辑形式甚至是关系表。
    3.模式发现:自动进行模式发现。可以在同一个站点内部或在多个站点之间进行。
    4.模式分析:验证、解释上一步骤产生的模式。可以是机器自动完成,也可以是与分析人员进行交互来完成。 相关研究方向

    Web挖掘作为一个完整的技术体系,在进行挖掘之前的信息获得IR(Information Retrieval)和信息抽取IE(Information Extraction)相当重要。信息获得(IR)的目的在于找到相关Web文档,它只是把文档中的数据看成未经排序的词组的集合,而信息抽取(IE)的 目的在于从文档中找到需要的数据项目,它对文档的结构合表达的含义感兴趣,它得一个重要任务就是对数据进行组织整理并适当建立索引。
    信 息获得(IR)和信息抽取(IE)技术的研究已近有很长时间,随着Web技术的发展,基于Web技术的IR、IE得到了更多的重视。由于Web 数据量非常大,而且可能动态变化,用原来手工方式进行信息收集早已经力不从心,目前的研究方向是用自动化、半自动化的方法在Web上进行IR和IE。在 Web环境下既要处理非结构化文档,又要处理半结构化的数据,最近几年在这两方面都有相应的研究成果和具体应用,特别是在大型搜索引擎中得到了很好的应 用。
    Web挖掘分类及各自的研究现状及发展
    根据对Web数据的感兴趣程度不同,Web挖掘一般可以分为三类:Web内容挖掘(Web Content mining)、 Web结构挖掘( Web structure mining)、 Web 用法挖掘(Web usage Mining)
    1、Web内容挖掘:
    指 从Web内容/数据/文档中发现有用信息,Web上的信息五花八门,传统的Internet由各种类型的服务和数据源组成,包括WWW、FTP、 Telnet等,现在有更多的数据和端口可以使用,比如政府信息服务、数字图书馆、电子商务数据,以及其他各种通过Web可以访问的数据库。Web内容挖 掘的对象包括文本、图象、音频、视频、多媒体和其他各种类型的数据。其中针对无结构化文本进行的Web挖掘被归类到基于文本的知识发现(KDT)领域,也 称文本数据挖掘或文本挖掘,是Web挖掘中比较重要的技术领域,也引起了许多研究者的关注。最近在Web多媒体数据挖掘方面的研究成为另一个热点。
    Web 内容挖掘一般从两个不同的观点来进行研究。从资源查找(IR)的观点来看,Web内容挖掘的任务是从用户的角度出发,怎样提高信息质量和帮助用户过滤信 息。而从DB的角度讲Web内容挖掘的任务主要是试图对Web上的数据进行集成、建模,以支持对Web数据的复杂查询。
    1.1从资源查找(Information Retrival)的观点挖掘非结构化文档:
    非 结构化文档主要指Web上的自由文本,包括小说、新闻等。在这方面的研究相对比较多一些,大部分研究都是建立在词汇袋(bag of words)或称向量表示法(vector representation)的基础上,这种方法将单个的词汇看成文档集合中的属性,只从统计的角度将词汇孤立地看待而忽略该词汇出现的位置和上下文环 境。属性可以是布尔型,根据词汇是否在文档中出现而定,也可以有频度,即该词汇在文档中的出现频率。这种方法可以扩展为选择终结符、标点符号、不常用词汇 的属性作为考察集合。词汇袋方法的一个弊端是自由文本中的数据丰富,词汇量非常大,处理起来很困难,为解决这个问题人们做了相应的研究,采取了不同技术, 如信息增益,交叉熵、差异比等,其目的都是为了减少属性。另外,一个比较有意义的方法是潜在语义索引(Latent Semantic Indexing),它通过分析不同文档中相同主题的共享词汇,找到他们共同的根,用这个公共的根代替所有词汇,以此来减少维空间。例如: “informing”、“information”、“informer”、“informed”可以用他们的根“inform”来表示,这样可以减少 属性集合的规模。
    其他的属性表示法还有词汇在文档中的出现位置、层次关系、使用短语、使用术语、命名实体等,目前还没有研究表明一种表示法明显优于另一种。
    用资源查找(Information Retrival)的观点挖掘半结构化文档:
    与非结构化数据相比,Web上的半结构化文档挖掘指在加入了HTML、超连接等附加结构的信息上进行挖掘,其应用包括超连接文本的分类、聚类、发现文档之间的关系、提出半结构化文档中的模式和规则等。
    1.2从数据库(Database)的观点挖掘非结构化文档:
    数据库技术应用于Web挖掘主要是为了解决Web信息的管理和查询问题。这些问题可以分为三类:Web信息的建模和查询;信息抽取与集成;Web站点建构和重构。
    从数据库的观点进行Web内容挖掘主要是试图建立Web站点的数据模型并加以集成,以支持复杂查询,而不止是简单的基于关键词的搜索。这要通过找到Web文档的模式、建立Web数据仓库或Web知识库或虚拟数据库来实现。相关研究主要是基于半结构化数据进行的。
    数 据库观点主要利用OEM(Object Exchange Model)模型将半结构化数据表示成标识图。OEM中的每个对象都有对象标识(OID)和值,值可以是原子类型,如整型、字符串型、gif、html 等,也可以是一个复合类型,以对象引用集合的形式表示。由于Web数据量非常庞大,从应用的角度考虑,很多研究只处理办结构化数据的一个常用自集。一些有 意义的应用是建立多层数据库(MLDB),每一层是它下面层次的概化,这样就可以进行一些特殊的查询和信息处理。对于在半结构化数据上的查询语言研究也得 到了人们的重视并做了专题研究。
    由于在数据库观点下数据的表示方法比较特殊,其中包含了关系层次和图形化的数据,所以大部分建立在扁平数据集合之上的数据挖掘方法不能直接使用,目前已经有人针对多层数据库挖掘算法进行研究。
    2、Web结构挖掘:
    Web结构挖掘的对象是Web本身的超连接,即对Web文档的结构进行挖掘。对于给定的Web文档集合,应该能够通过算法发现他们之间连接情况的有用信息,文档之间的超连接反映了文档之间的包含、引用或者从属关系,引用文档对被引用文档的说明往往更客观、更概括、更准确。
    Web 结构挖掘在一定程度上得益于社会网络和引用分析的研究。把网页之间的关系分为incoming连接和outgoing连接,运用引用分析方法找到同一网站 内部以及不同网站之间的连接关系。在Web结构挖掘领域最著名的算法是HITS算法和PageRank算法。他们的共同点是使用一定方法计算Web页面之 间超连接的质量,从而得到页面的权重。著名的Clever和Google搜索引擎就采用了该类算法。
    此 外,Web结构挖掘另一个尝试是在Web数据仓库环境下的挖掘,包括通过检查同一台服务器上的本地连接衡量Web结构挖掘Web站点的完全性,在不同的 Web数据仓库中检查副本以帮助定位镜像站点,通过发现针对某一特定领域超连接的层次属性去探索信息流动如何影响Web站点的设计。
    3、Web用法挖掘(Web usage Mining):
    即Web 使用记录挖掘,在新兴的电子商务领域有重要意义,它通过挖掘相关的Web日志记录,来发现用户访问Web页面的模式,通过分析日志记录中的规律,可以识别 用户的忠实度、喜好、满意度,可以发现潜在用户,增强站点的服务竞争力。Web使用记录数据除了服务器的日志记录外还包括代理服务器日志、浏览器端日志、 注册信息、用户会话信息、交易信息、Cookie中的信息、用户查询、鼠标点击流等一切用户与站点之间可能的交互记录。可见Web使用记录的数据量是非常 巨大的,而且数据类型也相当丰富。根据对数据源的不同处理方法,Web 用法挖掘可以分为两类,一类是将Web使用记录的数据转换并传递进传统的关系表里,再使用数据挖掘算法对关系表中的数据进行常规挖掘;另一类是将Web 使用记录的数据直接预处理再进行挖掘。Web 用法挖掘中的一个有趣的问题是在多个用户使用同一个代理服务器的环境下如何标识某个用户,如何识别属于该用户的会话和使用记录,这个问题看起来不大,但却 在很大程度上影响着挖掘质量,所以有人专门在这方面进行了研究。通常来讲,经典的数据挖掘算法都可以直接用到Web 用法挖掘上来,但为了提高挖掘质量,研究人员在扩展算法上进行了努力,包括复合关联规则算法、改进的序列发现算法等。

    人工智能


    根据数据来源、数据类型、数据集合中的用户数量、数据集合中的服务器数量等将Web 用法挖掘分为五类:
    个性挖掘:针对单个用户的使用记录对该用户进行建模,结合该用户基本信息分析他的使用习惯、个人喜好,目的是在电子商务环境下为该用户提供与众不同的个性化服务。
    系统改进:Web服务(数据库、网络等)的性能和其他服务质量是衡量用户满意度的关键指标,Web 用法挖掘可以通过用户的拥塞记录发现站点的性能瓶颈,以提示站点管理者改进Web缓存策略、网络传输策略、流量负载平衡机制和数据的分布策略。此外,可以 通过分析网络的非法入侵数据找到系统弱点,提高站点安全性,这在电子商务环境下尤为重要。
    站点修改:站点的结构和内容是吸引用户的关键。Web 用法挖掘通过挖掘用户的行为记录和反馈情况为站点设计者提供改进的依,比如页面连接情况应如何组织、那些页面应能够直接访问等。
    ●智能商务:用户怎样使用Web站点的信息无疑是电子商务销售商关心的重点,用户一次访问的周期可分为被吸引、驻留、购买和离开四个步骤,Web用法挖掘可以通过分析用户点击流等Web日志信息挖掘用户行为的动机,以帮助销售商合理安排销售策略。
    Web特征描述:这类研究跟关注这样通过用户对站点的访问情况统计各个用户在页面上的交互情况,对用户访问情况进行特征描述。
    展开全文
  • Web文本挖掘技术研究

    2012-04-05 13:25:46
    作为从浩瀚的Web信息资源中发现潜在的、有价值知识的一种有效技术, Web挖掘正... WebMiner 采用了多agent 体系结构, 将多维文本分析与文本挖掘这两种技术有机地结合起来, 以帮助用户快速、有效地挖掘Web上的HTML文档.
  • Web数据挖掘综述

    千次阅读 2012-02-01 21:39:56
    1. 基于WEB 数据挖掘的分类 根据挖掘的对象不同我们可以把基于WEB ...² 基于WEB 结构挖掘(WebStructure Mining) ² 基于WEB 使用的挖掘WebUsage Mining) 1) 基于WEB 内容的挖掘  所谓基于WEB 内容的挖

    1.     基于WEB 数据挖掘的分类

    根据挖掘的对象不同我们可以把基于WEB 的数据挖掘分为三大类:

    ²  基于WEB 内容的挖掘(WebContent Mining)

    ²  基于WEB 结构的挖掘(WebStructure Mining)

    ²  基于WEB 使用的挖掘(WebUsage Mining)

    1)      基于WEB 内容的挖掘

           所谓基于WEB 内容的挖掘实际上就是从WEB 文档及其描述中获取知识, WEB文档文件挖掘以及基于概念索引或Agent技术的资源搜索也应该归于此类。Web 信息资源类型众多,目前WWW 信息资源已经成为网络信息资源的主体,然而除了大量的人们可以直接从网上抓取、建立索引、实现查询服务的资源之外,相当一部分信息是隐藏着的数据(如由用户的提问而动态生成的结果,存在于数据库系统中的数据,或是某些私人数据)无法被索引,从而无法提供对它们有效的检索方式,这就迫使我们把这些内容挖掘出来。若从信息资源的表现形式来看,WEB 信息内容是由文本、图像、音频、视频、元数据等种种形式的数据组成的,因而我们所说的基于WEB 内容的挖掘也是一种针对多媒体数据的挖掘。

    2)      基于WEB 结构的挖掘

          这一类型的挖掘是从万维网的整体结构和网页上的相互链接中发现知识的过程,它主要挖掘WEB 潜在的链接结构模式。这种思想源于引文分析,即通过分析一个网页链接和被链接数量以及对象来建立WEB 自身的链接结构模式。这种模式可以用于网页归类并且可以由此获得有关不同网页间相似度及关联度的信息。WEB 结构挖掘有助于用户找到相关主题的权威站点,而且对网络资源检索结果的排序有很大意义。

    3)      基于WEB 使用的挖掘

           基于WEB 使用的挖掘,也称为WEB 日志挖掘(WebLog Mining)。与前两种挖掘方式以网上的原始数据为挖掘对象不同,基于WEB 使用的挖掘面对的是在用户和网络交互的过程中抽取出来的第二手数据。这些数据包括:网络服务器访问记录、代理服务器日志记录、用户注册信息以及用户访问网站时的行为动作等等。WEB 使用挖掘将这些数据一一纪录到日志文件中,然后对积累起来的日志文件进行挖掘,从而了解用户的网络行为数据所具有的意义。我们前面所举的例子正属于这一种类型。

    2.     基于WEB 数据挖掘的特点

    1)      什么是半结构化

          所谓半结构化是相对于结构化和非结构化而言的。我们称传统数据库中的数据为完全结构化的数据,而同时还存在着一些诸如一本书、一张图片等完全无结构的非结构化数据。半结构化则是介于两者之间,具有隐含模式、信息结构不规则、无严格类型约束等特点。半结构化数据模式有如下特征:

    n  先有数据,后有模式;

    n  半结构化数据的模式是用于描述数据的结构信息,而不是对数据结构进行强制性的约束;

    n  半结构化数据的模式是非精确的,它只可能描述数据的一部分结构,也可能根据数据处理的不同阶段的视角不同而异;

    n  半结构化数据的模式,可能规模很大甚至超过源数据的规模,而且会由于数据的不断更新而处于动态变化过程中。

    2)      WEB 数据的特点

           Web 上的数据最大特点就是半结构化。但是Web 上的数据与传统的数据库中的数据不同,传统的数据库都有一定的数据模型,可以根据模型来具体描述特定的数据而且按照一定的组织有规律的集中或者分布存放,结构性很强;而Web 上的数据非常复杂,没有特定的模型描述每一站点的数据,都各自独立设计并且数据本身具有自述性和动态可变性,因而Web 上的数据不是强结构性的。但与此同时Web 页面又是有描述层次的,单个网站也是按照各自的结构构架的,从而具有一定的结构性。因此我们认为Web 上存在的数据既不是完全结构化的也不是完全非结构化的,而是介于两者之间,一般称之为半结构化数据。

           半结构化是Web 上数据的最大特点,显然面向Web 的数据挖掘比面向单个数据仓库或者其他结构化数据集的数据挖掘要复杂得多。

    3.     使用基于WEB 数据挖掘能得到什么

           Web Mining 技术已经应用于解决多方面的问题,比如基于WEB 内容和结构的挖掘极大的帮助了我们从浩瀚的网络资源中更加快速而准确的获取所需要的资料,而基于使用的数据挖掘之威力,更是在商业运作上发挥的淋漓尽致,具体表现在:

    1)      对网站的修改能有目的有依据稳步的提高用户满意度

    发现系统性能瓶颈,找到安全漏洞,查看网站流量模式,找到网站最重要的部分,发现用户的需要和兴趣,对需求强烈的地方提供优化,根据用户访问模式修改网页之间的连接,把用户想要的东西以更快且有效的方式提供给用户,在正确的地方正确的时间把正确的信息提供给正确的人。

    2)      测定投资回报率

         测定广告和促销计划的成功度

         找到最有价值的ISP 和搜索引擎

          测定合作和结盟网站对自身的价值

    3)      提供个性化网站

             对大多数WEB 应用来说,让用户感到真个网站是完全为他自己定制的个性化网站,是WEB 站点成功的秘诀。针对不同的用户完全按照其个人的兴趣和爱好(数据挖掘算法得到的用户访问模式)向用户动态的提供要浏览的建议自动提供个性化的网站。

    4.     基于WEB 使用挖掘中的技术问题

    1)      WebUsage Mining 中非技术问题

          在基于使用的挖掘中,出于商业目的考量网站的拥有者或者管理者经常会对网站的某些方面提出一些分析,比如:流量分析(点击量)、广告分析、网站出入口分析、访问路径分析、用户来源分析、浏览器和平台分析等等。

          就这些方面作进一步的智能分析,我们可以从中真正与数据挖掘相关的问题:

    a)       网页相关性分析

          哪些网页具有密切的关系,如果很多人具有a.html-〉b.html-〉c.html 这样的访问模式,则我们可以认定a.html和c.html 之间有一定的关系,从而考虑是否在a.html上直接加上c.html的链接。

    b)       用户访问模式分析

           有哪一些网页用户只要访问了其中的一页,则可以断定他也要访问其他的网页即按不同的用户访问模式,把网页分组得到一个一个的兴趣点。哪些用户所访问的网页组成比较类似(具有类似的兴趣)即根据用户行为的相似性,把用户按行为模式分类。

    c)       用户归类

    通过用户填写的信息如何把用户归入某一特定的类别,然后可对同一类别中的用户提供相似的服务。

    2)      Web Usage Mining 中的技术问题

    a)       数据处理

            如何得到分析和数据挖掘所用的数据,主要采用两种方法,一是直接使用WebServer的Log 文件,二是用网络监听的办法,在数据包中提取出HTTP 请求和应答。最后两种数据源都要转换成固定的格式存放在数据库或数据仓库内,供统计分析和数据挖掘使用。

    b)       统计分析

             在数据库的基础上,针对不同的数据运行各种统计函数。

    c)       数据挖掘

              数据挖掘技术是实现智能分析得到隐藏在大量繁杂数据内部知识的关键。通过对用户访问网站的历史数据(即我们通过数据处理得到的数据)应用各种数据挖掘技术,得到高层知识,提供给用户作决策支持,或利用这些知识动态生成网页,为用户提供访问建议。

    d)       关联规则Association Rules

             从服务器会话中发现请求网页的相关性,可用于优化网站组织,实现网络代理中的预取功能等。

    e)       聚集Clustering

            使用分组(UsageClusters )把具有相似浏览模式的用户分成组,可用于电子商务应用中市场分片(marketsegmentation) 和为用户提供个性化服务,而网页分组(pageclusters )按内容的相似性把网页分类,可用于搜索引擎和Web 浏览助手(Webassistance providers )为用户提供推荐链接。

    f)         归类Classification

             根据用户的个人资料,将其归入某一特定的类,可使用决策树、naiveBayesian  classifiers、 k-最近邻居等算法。

    g)       序列模式Sequential Patterns

           发现一个session内部的网页间的时间相关性,可用于预测用户的访问趋向而提供建议。

    展开全文
  • 基于Web日志挖掘Web文档聚类.pdf
  • 基于半结构化分割的Web热点数据挖掘算法.pdf
  • 摘 要: 提出了一种改进的会话识别方法。该方法基于访问站点的和...Web本身是半结构化或无结构的数据,缺乏机器可理解的语义,Web挖掘的对象是大量,异质,分布的Web文档,对Web服务器上的日志、用户信息等数据所开
  • 最近提出基于Web使用挖掘和web内容挖掘的个性化服务体系结构,在此基础上进一步引入了Web结构挖掘,统称为基于Web挖掘的个性化服务体系结构;给出了通过聚类算法获取总体使用特征、内容特征和结构特征及其一致化表示...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 44,876
精华内容 17,950
关键字:

web结构挖掘