精华内容
下载资源
问答
  • 现在通过MDX语句查询到的是 cellSet 数据集合 因为刚接触,想请教一个思路, 项目功能大致是 指定某个数据库,能对改数据库的数据进行数据挖掘。因为数据库不固定,所以层次和结构都不明确,有大神能给个解决方向吗...
  • Web数据挖掘

    千次阅读 2007-08-28 12:54:00
    Web挖掘流程 与传统数据和数据仓库相比,Web上的信息是非结构化或半结构化的、动态的、并且是容易造成混淆的,所以很难直接以Web网页上的数据进行数据挖掘,而必须经过必要的数据处理。典型Web挖掘的处理流程如下
    Web挖掘指使用数据挖掘技术在WWW数据中发现潜在的、有用的模式或信息。Web挖掘研究覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。
    Web挖掘流程
    与传统数据和数据仓库相比,Web上的信息是非结构化或半结构化的、动态的、并且是容易造成混淆的,所以很难直接以Web网页上的数据进行数据挖掘,而必须经过必要的数据处理。典型Web挖掘的处理流程如下[3]:
    1.查找资源:任务是从目标Web文档中得到数据,值得注意的是有时信息资源不仅限于在线Web文档,还包括电子邮件、电子文档、新闻组,或者网站的日志数据甚至是通过Web形成的交易数据库中的数据。
    2.信息选择和预处理:任务是从取得的Web资源中剔除无用信息和将信息进行必要的整理。例如从Web文档中自动去除广告连接、去除多余格式标记、自动识别段落或者字段并将数据组织成规整的逻辑形式甚至是关系表。
    3.模式发现:自动进行模式发现。可以在同一个站点内部或在多个站点之间进行。
    4.模式分析:验证、解释上一步骤产生的模式。可以是机器自动完成,也可以是与分析人员进行交互来完成。

    Web挖掘作为一个完整的技术体系,在进行挖掘之前的信息获得IR(Information Retrieval)和信息抽取IE(Information Extraction)相当重要。信息获得(IR)的目的在于找到相关Web文档,它只是把文档中的数据看成未经排序的词组的集合,而信息抽取(IE)的 目的在于从文档中找到需要的数据项目,它对文档的结构合表达的含义感兴趣,它得一个重要任务就是对数据进行组织整理并适当建立索引。
    信 息获得(IR)和信息抽取(IE)技术的研究已近有很长时间,随着Web技术的发展,基于Web技术的IR、IE得到了更多的重视。由于Web 数据量非常大,而且可能动态变化,用原来手工方式进行信息收集早已经力不从心,目前的研究方向是用自动化、半自动化的方法在Web上进行IR和IE。在 Web环境下既要处理非结构化文档,又要处理半结构化的数据,最近几年在这两方面都有相应的研究成果和具体应用,特别是在大型搜索引擎中得到了很好的应 用。
    Web挖掘分类及各自的研究现状及发展
    根据对Web数据的感兴趣程度不同,Web挖掘一般可以分为三类:Web内容挖掘(Web Content mining)、 Web结构挖掘( Web structure mining)、 Web 用法挖掘(Web usage Mining)
    1、Web内容挖掘:
    指 从Web内容/数据/文档中发现有用信息,Web上的信息五花八门,传统的Internet由各种类型的服务和数据源组成,包括WWW、FTP、 Telnet等,现在有更多的数据和端口可以使用,比如政府信息服务、数字图书馆、电子商务数据,以及其他各种通过Web可以访问的数据库。Web内容挖 掘的对象包括文本、图象、音频、视频、多媒体和其他各种类型的数据。其中针对无结构化文本进行的Web挖掘被归类到基于文本的知识发现(KDT)领域,也 称文本数据挖掘或文本挖掘,是Web挖掘中比较重要的技术领域,也引起了许多研究者的关注。最近在Web多媒体数据挖掘方面的研究成为另一个热点。
    Web 内容挖掘一般从两个不同的观点来进行研究。从资源查找(IR)的观点来看,Web内容挖掘的任务是从用户的角度出发,怎样提高信息质量和帮助用户过滤信 息。而从DB的角度讲Web内容挖掘的任务主要是试图对Web上的数据进行集成、建模,以支持对Web数据的复杂查询。
    1.1从资源查找(Information Retrival)的观点挖掘非结构化文档:
    非 结构化文档主要指Web上的自由文本,包括小说、新闻等。在这方面的研究相对比较多一些,大部分研究都是建立在词汇袋(bag of words)或称向量表示法(vector representation)的基础上,这种方法将单个的词汇看成文档集合中的属性,只从统计的角度将词汇孤立地看待而忽略该词汇出现的位置和上下文环 境。属性可以是布尔型,根据词汇是否在文档中出现而定,也可以有频度,即该词汇在文档中的出现频率。这种方法可以扩展为选择终结符、标点符号、不常用词汇 的属性作为考察集合。词汇袋方法的一个弊端是自由文本中的数据丰富,词汇量非常大,处理起来很困难,为解决这个问题人们做了相应的研究,采取了不同技术, 如信息增益,交叉熵、差异比等,其目的都是为了减少属性。另外,一个比较有意义的方法是潜在语义索引(Latent Semantic Indexing),它通过分析不同文档中相同主题的共享词汇,找到他们共同的根,用这个公共的根代替所有词汇,以此来减少维空间。例如: “informing”、“information”、“informer”、“informed”可以用他们的根“inform”来表示,这样可以减少 属性集合的规模。
    其他的属性表示法还有词汇在文档中的出现位置、层次关系、使用短语、使用术语、命名实体等,目前还没有研究表明一种表示法明显优于另一种。
    用资源查找(Information Retrival)的观点挖掘半结构化文档:
    与非结构化数据相比,Web上的半结构化文档挖掘指在加入了HTML、超连接等附加结构的信息上进行挖掘,其应用包括超连接文本的分类、聚类、发现文档之间的关系、提出半结构化文档中的模式和规则等。
    1.2从数据库(Database)的观点挖掘非结构化文档:
    数据库技术应用于Web挖掘主要是为了解决Web信息的管理和查询问题。这些问题可以分为三类:Web信息的建模和查询;信息抽取与集成;Web站点建构和重构。
    从数据库的观点进行Web内容挖掘主要是试图建立Web站点的数据模型并加以集成,以支持复杂查询,而不止是简单的基于关键词的搜索。这要通过找到Web文档的模式、建立Web数据仓库或Web知识库或虚拟数据库来实现。相关研究主要是基于半结构化数据进行的。
    数 据库观点主要利用OEM(Object Exchange Model)模型将半结构化数据表示成标识图。OEM中的每个对象都有对象标识(OID)和值,值可以是原子类型,如整型、字符串型、gif、html 等,也可以是一个复合类型,以对象引用集合的形式表示。由于Web数据量非常庞大,从应用的角度考虑,很多研究只处理办结构化数据的一个常用自集。一些有 意义的应用是建立多层数据库(MLDB),每一层是它下面层次的概化,这样就可以进行一些特殊的查询和信息处理。对于在半结构化数据上的查询语言研究也得 到了人们的重视并做了专题研究。
    由于在数据库观点下数据的表示方法比较特殊,其中包含了关系层次和图形化的数据,所以大部分建立在扁平数据集合之上的数据挖掘方法不能直接使用,目前已经有人针对多层数据库挖掘算法进行研究。
    2、Web结构挖掘:
    Web结构挖掘的对象是Web本身的超连接,即对Web文档的结构进行挖掘。对于给定的Web文档集合,应该能够通过算法发现他们之间连接情况的有用信息,文档之间的超连接反映了文档之间的包含、引用或者从属关系,引用文档对被引用文档的说明往往更客观、更概括、更准确。
    Web 结构挖掘在一定程度上得益于社会网络和引用分析的研究。把网页之间的关系分为incoming连接和outgoing连接,运用引用分析方法找到同一网站 内部以及不同网站之间的连接关系。在Web结构挖掘领域最著名的算法是HITS算法和PageRank算法。他们的共同点是使用一定方法计算Web页面之 间超连接的质量,从而得到页面的权重。著名的Clever和Google搜索引擎就采用了该类算法。
    此 外,Web结构挖掘另一个尝试是在Web数据仓库环境下的挖掘,包括通过检查同一台服务器上的本地连接衡量Web结构挖掘Web站点的完全性,在不同的 Web数据仓库中检查副本以帮助定位镜像站点,通过发现针对某一特定领域超连接的层次属性去探索信息流动如何影响Web站点的设计。
    3、Web用法挖掘(Web usage Mining):
    即Web 使用记录挖掘,在新兴的电子商务领域有重要意义,它通过挖掘相关的Web日志记录,来发现用户访问Web页面的模式,通过分析日志记录中的规律,可以识别 用户的忠实度、喜好、满意度,可以发现潜在用户,增强站点的服务竞争力。Web使用记录数据除了服务器的日志记录外还包括代理服务器日志、浏览器端日志、 注册信息、用户会话信息、交易信息、Cookie中的信息、用户查询、鼠标点击流等一切用户与站点之间可能的交互记录。可见Web使用记录的数据量是非常 巨大的,而且数据类型也相当丰富。根据对数据源的不同处理方法,Web 用法挖掘可以分为两类,一类是将Web使用记录的数据转换并传递进传统的关系表里,再使用数据挖掘算法对关系表中的数据进行常规挖掘;另一类是将Web 使用记录的数据直接预处理再进行挖掘。Web 用法挖掘中的一个有趣的问题是在多个用户使用同一个代理服务器的环境下如何标识某个用户,如何识别属于该用户的会话和使用记录,这个问题看起来不大,但却 在很大程度上影响着挖掘质量,所以有人专门在这方面进行了研究。通常来讲,经典的数据挖掘算法都可以直接用到Web 用法挖掘上来,但为了提高挖掘质量,研究人员在扩展算法上进行了努力,包括复合关联规则算法、改进的序列发现算法等。

    根据数据来源、数据类型、数据集合中的用户数量、数据集合中的服务器数量等将Web 用法挖掘分为五类:
    ●个性挖掘:针对单个用户的使用记录对该用户进行建模,结合该用户基本信息分析他的使用习惯、个人喜好,目的是在电子商务环境下为该用户提供与众不同的个性化服务。
    ● 系统改进:Web服务(数据库、网络等)的性能和其他服务质量是衡量用户满意度的关键指标,Web 用法挖掘可以通过用户的拥塞记录发现站点的性能瓶颈,以提示站点管理者改进Web缓存策略、网络传输策略、流量负载平衡机制和数据的分布策略。此外,可以 通过分析网络的非法入侵数据找到系统弱点,提高站点安全性,这在电子商务环境下尤为重要。
    ●站点修改:站点的结构和内容是吸引用户的关键。Web 用法挖掘通过挖掘用户的行为记录和反馈情况为站点设计者提供改进的依,比如页面连接情况应如何组织、那些页面应能够直接访问等。
    ●智能商务:用户怎样使用Web站点的信息无疑是电子商务销售商关心的重点,用户一次访问的周期可分为被吸引、驻留、购买和离开四个步骤,Web用法挖掘可以通过分析用户点击流等Web日志信息挖掘用户行为的动机,以帮助销售商合理安排销售策略。
    Web特征描述:这类研究跟关注这样通过用户对站点的访问情况统计各个用户在页面上的交互情况,对用户访问情况进行特征描述
     
    展开全文
  • Web数据挖掘综述

    2012-02-01 21:39:56
    1. 基于WEB 数据挖掘的分类 根据挖掘的对象不同我们可以把基于WEB数据挖掘分为三大类: ² 基于WEB 内容的挖掘(WebContent Mining) ² 基于WEB 结构的挖掘(WebStructure Mining) ² 基于WEB 使用的...

    1.     基于WEB 数据挖掘的分类

    根据挖掘的对象不同我们可以把基于WEB 的数据挖掘分为三大类:

    ²  基于WEB 内容的挖掘(WebContent Mining)

    ²  基于WEB 结构的挖掘(WebStructure Mining)

    ²  基于WEB 使用的挖掘(WebUsage Mining)

    1)      基于WEB 内容的挖掘

           所谓基于WEB 内容的挖掘实际上就是从WEB 文档及其描述中获取知识, WEB文档文件挖掘以及基于概念索引或Agent技术的资源搜索也应该归于此类。Web 信息资源类型众多,目前WWW 信息资源已经成为网络信息资源的主体,然而除了大量的人们可以直接从网上抓取、建立索引、实现查询服务的资源之外,相当一部分信息是隐藏着的数据(如由用户的提问而动态生成的结果,存在于数据库系统中的数据,或是某些私人数据)无法被索引,从而无法提供对它们有效的检索方式,这就迫使我们把这些内容挖掘出来。若从信息资源的表现形式来看,WEB 信息内容是由文本、图像、音频、视频、元数据等种种形式的数据组成的,因而我们所说的基于WEB 内容的挖掘也是一种针对多媒体数据的挖掘。

    2)      基于WEB 结构的挖掘

          这一类型的挖掘是从万维网的整体结构和网页上的相互链接中发现知识的过程,它主要挖掘WEB 潜在的链接结构模式。这种思想源于引文分析,即通过分析一个网页链接和被链接数量以及对象来建立WEB 自身的链接结构模式。这种模式可以用于网页归类并且可以由此获得有关不同网页间相似度及关联度的信息。WEB 结构挖掘有助于用户找到相关主题的权威站点,而且对网络资源检索结果的排序有很大意义。

    3)      基于WEB 使用的挖掘

           基于WEB 使用的挖掘,也称为WEB 日志挖掘(WebLog Mining)。与前两种挖掘方式以网上的原始数据为挖掘对象不同,基于WEB 使用的挖掘面对的是在用户和网络交互的过程中抽取出来的第二手数据。这些数据包括:网络服务器访问记录、代理服务器日志记录、用户注册信息以及用户访问网站时的行为动作等等。WEB 使用挖掘将这些数据一一纪录到日志文件中,然后对积累起来的日志文件进行挖掘,从而了解用户的网络行为数据所具有的意义。我们前面所举的例子正属于这一种类型。

    2.     基于WEB 数据挖掘的特点

    1)      什么是半结构化

          所谓半结构化是相对于结构化和非结构化而言的。我们称传统数据库中的数据为完全结构化的数据,而同时还存在着一些诸如一本书、一张图片等完全无结构的非结构化数据。半结构化则是介于两者之间,具有隐含模式、信息结构不规则、无严格类型约束等特点。半结构化数据模式有如下特征:

    n  先有数据,后有模式;

    n  半结构化数据的模式是用于描述数据的结构信息,而不是对数据结构进行强制性的约束;

    n  半结构化数据的模式是非精确的,它只可能描述数据的一部分结构,也可能根据数据处理的不同阶段的视角不同而异;

    n  半结构化数据的模式,可能规模很大甚至超过源数据的规模,而且会由于数据的不断更新而处于动态变化过程中。

    2)      WEB 数据的特点

           Web 上的数据最大特点就是半结构化。但是Web 上的数据与传统的数据库中的数据不同,传统的数据库都有一定的数据模型,可以根据模型来具体描述特定的数据而且按照一定的组织有规律的集中或者分布存放,结构性很强;而Web 上的数据非常复杂,没有特定的模型描述每一站点的数据,都各自独立设计并且数据本身具有自述性和动态可变性,因而Web 上的数据不是强结构性的。但与此同时Web 页面又是有描述层次的,单个网站也是按照各自的结构构架的,从而具有一定的结构性。因此我们认为Web 上存在的数据既不是完全结构化的也不是完全非结构化的,而是介于两者之间,一般称之为半结构化数据。

           半结构化是Web 上数据的最大特点,显然面向Web 的数据挖掘比面向单个数据仓库或者其他结构化数据集的数据挖掘要复杂得多。

    3.     使用基于WEB 数据挖掘能得到什么

           Web Mining 技术已经应用于解决多方面的问题,比如基于WEB 内容和结构的挖掘极大的帮助了我们从浩瀚的网络资源中更加快速而准确的获取所需要的资料,而基于使用的数据挖掘之威力,更是在商业运作上发挥的淋漓尽致,具体表现在:

    1)      对网站的修改能有目的有依据稳步的提高用户满意度

    发现系统性能瓶颈,找到安全漏洞,查看网站流量模式,找到网站最重要的部分,发现用户的需要和兴趣,对需求强烈的地方提供优化,根据用户访问模式修改网页之间的连接,把用户想要的东西以更快且有效的方式提供给用户,在正确的地方正确的时间把正确的信息提供给正确的人。

    2)      测定投资回报率

         测定广告和促销计划的成功度

         找到最有价值的ISP 和搜索引擎

          测定合作和结盟网站对自身的价值

    3)      提供个性化网站

             对大多数WEB 应用来说,让用户感到真个网站是完全为他自己定制的个性化网站,是WEB 站点成功的秘诀。针对不同的用户完全按照其个人的兴趣和爱好(数据挖掘算法得到的用户访问模式)向用户动态的提供要浏览的建议自动提供个性化的网站。

    4.     基于WEB 使用挖掘中的技术问题

    1)      WebUsage Mining 中非技术问题

          在基于使用的挖掘中,出于商业目的考量网站的拥有者或者管理者经常会对网站的某些方面提出一些分析,比如:流量分析(点击量)、广告分析、网站出入口分析、访问路径分析、用户来源分析、浏览器和平台分析等等。

          就这些方面作进一步的智能分析,我们可以从中真正与数据挖掘相关的问题:

    a)       网页相关性分析

          哪些网页具有密切的关系,如果很多人具有a.html-〉b.html-〉c.html 这样的访问模式,则我们可以认定a.html和c.html 之间有一定的关系,从而考虑是否在a.html上直接加上c.html的链接。

    b)       用户访问模式分析

           有哪一些网页用户只要访问了其中的一页,则可以断定他也要访问其他的网页即按不同的用户访问模式,把网页分组得到一个一个的兴趣点。哪些用户所访问的网页组成比较类似(具有类似的兴趣)即根据用户行为的相似性,把用户按行为模式分类。

    c)       用户归类

    通过用户填写的信息如何把用户归入某一特定的类别,然后可对同一类别中的用户提供相似的服务。

    2)      Web Usage Mining 中的技术问题

    a)       数据处理

            如何得到分析和数据挖掘所用的数据,主要采用两种方法,一是直接使用WebServer的Log 文件,二是用网络监听的办法,在数据包中提取出HTTP 请求和应答。最后两种数据源都要转换成固定的格式存放在数据库或数据仓库内,供统计分析和数据挖掘使用。

    b)       统计分析

             在数据库的基础上,针对不同的数据运行各种统计函数。

    c)       数据挖掘

              数据挖掘技术是实现智能分析得到隐藏在大量繁杂数据内部知识的关键。通过对用户访问网站的历史数据(即我们通过数据处理得到的数据)应用各种数据挖掘技术,得到高层知识,提供给用户作决策支持,或利用这些知识动态生成网页,为用户提供访问建议。

    d)       关联规则Association Rules

             从服务器会话中发现请求网页的相关性,可用于优化网站组织,实现网络代理中的预取功能等。

    e)       聚集Clustering

            使用分组(UsageClusters )把具有相似浏览模式的用户分成组,可用于电子商务应用中市场分片(marketsegmentation) 和为用户提供个性化服务,而网页分组(pageclusters )按内容的相似性把网页分类,可用于搜索引擎和Web 浏览助手(Webassistance providers )为用户提供推荐链接。

    f)         归类Classification

             根据用户的个人资料,将其归入某一特定的类,可使用决策树、naiveBayesian  classifiers、 k-最近邻居等算法。

    g)       序列模式Sequential Patterns

           发现一个session内部的网页间的时间相关性,可用于预测用户的访问趋向而提供建议。

    展开全文
  • WEB数据挖掘相关术语整理

    千次阅读 2011-09-28 23:39:26
    WEB数据挖掘建立在对大量的网络数据进行分析的基础上,采用相应的数据挖掘算法,在具体的应用模型上进行数据的提取、数据筛选、数据转换、数据挖掘和模式分析,最后做出归纳性的推理、预测客户的个性化行为以及用户...
     
    

    WEB数据挖掘建立在对大量的网络数据进行分析的基础上,采用相应的数据挖掘算法,在具体的应用模型上进行数据的提取、数据筛选、数据转换、数据挖掘和模式分析,最后做出归纳性的推理、预测客户的个性化行为以及用户习惯,从而帮助进行决策和管理,减少决策的风险。

    WEB数据挖掘涉及多个领域,除数据挖掘外,还涉及计算机网络、数据库与数据仓储、人工智能、信息检索、可视化、自然语言理解等技术。

    1) WEB数据挖掘分类

    Web数据挖掘可分为四类:Web内容挖掘、Web结构挖掘、Web使用记录挖掘和Web用户性质挖掘。其中,Web内容挖掘、Web结构挖掘和Web使用记录挖掘是Web1.0时代就已经有了的,而Web用户性质挖掘则是伴随着Web2.0的出现而出现的。

    1. WEB内容挖掘(WCM,Web Content Mining) Web内容挖掘是指从Web上的文件内容及其描述信息中获取潜在的、有价值的知识或模式的过程,根据挖掘的对象是文本文档还是多媒体文档又可以分为文本挖掘和多媒体挖掘。
    2. WEB结构挖掘(WSM,Web Structure Mining Web结构挖掘的基本思想是将Web看作一个有向图,他的顶点是Web页面,页面间的超链就是图的边。然后利用图论对Web的拓扑结构进行分析。
    3. WEB使用记录挖掘(WUM,Web Usage Mining) Web使用记录挖掘也叫Web日志挖掘或Web访问信息挖掘。它是通过挖掘相关的Web日志记录,来发现用户访问Web页面的模式,通过分析日志记录中的规律,可以识别用户的喜好、满意度,可以发现潜在用户,增强站点的服务竞争力。

    Web使用记录数据除了服务器的日志记录外,还包括代理服务器日志、浏览器端日志、注册信息、用户会话信息、交易信息、Cookie中的信息、用户查询、等一切用户与站点之间可能的交互记录。 Web使用记录挖掘方法主要有以下两种:

    1. 将网络服务器的日志文件作为原始数据,应用特定的预处理方法进行处理后再进行挖掘;
    2. 将网络服务器的日志文件转换为图表,然后再进行进一步的数据挖掘。通常,在对原始数据进行预处理后就可以使用传统的数据挖掘方法进行挖掘。

    WEB用户性质挖掘

    如果说Web使用记录挖掘是挖掘网站访问者在各大网站上留下的痕迹,那么Web用户性质挖掘则是要去Web用户的老巢探寻究竟。在Web2.0时代,网络彻底个人化了,它完全允许客户用自己的方式、喜好和个性化的定制服务创造自己的互联网,它一方面给予互联网用户最大的自由度,另一方面给予有心商家有待发掘的高含金量信息数据。通过对Web用户自建的RSS、Blog等Web2.0功能模块下客户信息的统计分析,能够帮助运营商以较低成本获得准确度较高的客户兴趣倾向、个性化需求以及新业务发展趋势等信息。有关Web2.0下的数据挖掘正在进一步的研究中。

    2) WEB数据的特点

    1. 异构数据库环境。Web上的每一个站点就是一个数据源,每个数据源都是异构的,因而每一站点的信息和组织都不一样,这就构成了一个巨大的异构数据库。
    2. 分布式数据源。Web页面散布在世界各地的Web服务器上,形成了分布式数据源。
    3. 半结构化。半结构化是Web上数据的最大特点。Web上的数据非常复杂,没有特定的模型描述,是一种非完全结构化的数据,称之为半结构化数据。
    4. 动态性强。Web是一个动态性极强的信息源,信息不断地快速更新,各站点的链接信息和访问记录的更新非常频繁。
    5. 多样复杂性。Web包含了各种信息和资源,有文本数据、超文本数据、图表、图像、音频数据和视频数据等多种多媒体数据。

    3) 典型的WEB挖掘的处理流程

    1. 查找资源:根据挖掘目的,从Web资源中提取相关数据,构成目标数据集,Web数据挖掘主要从这些数据通信中进行数据提取。其任务是从目标Web数据网站日志、网络数据库中的数据等中得到数据。
    2. 数据预处理:在进行Web挖掘之前对“杂质”数据进行过滤。例如消除数据的不一致性;将多个数据源中的数据统一为一个数据存储等。预处理数据的效果直接影响到挖掘算法产生的规则和模式。数据预处理主要包括站点识别、数据选择、数据净化、用户识别和会话识别等。
    3. 模式发现:利用挖掘算法挖掘出有效的、新颖的、潜在的、有用的及最终可以理解的信息和知识。常用的模式发现技术包括:路径分析、关联规则挖掘、时序模式发现、聚类和分类等技术。
    4. 模式分析:利用合适的工具和技术对挖掘出来的模式进行分析、解释、可视化,把发现的规则模式转换为知识

    4) 常用的WEB挖掘技术

    1. 路径分析技术 它可以被用于判定在一个站点中最频繁访问的路径,还有一些其它的有关路径的信息通过路径分析可以得出。利用这些信息就可以改进站点的设计结构。
    2. 关联规则技术 关联规则挖掘技术主要用于从用户访问序列数据库的序列项中挖掘出相关的规则,就是要挖掘出用户在一个访问期限(Session),从服务器上访问的页面文件之间的联系,这些页面之间并不存在直接的参引(Reference)关系。使用关联规则可以发展很多相关信息或产品服务。例如:某信息A和B,同时被很多用户浏览,则说明A和B有可能相关。同时点击的用户越多,其相关度就可能越高。系统可以利用这种思想为用户推荐相关信息或产品服务。如当当电子书店就采用了这一模式用以推荐相关书目。
    3. 序列模式挖掘技术 在时间戳有序的事务集中,序列模式的发现就是指那些如“一些项跟随另一个项”这样的内部事务模式。发现序列模式,能够便于预测读者的访问模式,开展有针对性的服务。
    4. 聚类分类技术 发现分类规则可以给出识别一个特殊群体的公共属性的描述,这种描述可以用于分类的读者。聚类分析可以从Web访问信息数据中聚类出具有相似特性的读者,在Web事务日志中,聚类读者信息或数据项能够便于开发和设计未来的服务模式和服务群体。

    5) WEB 日志挖掘在客户关系管理(CRM)中的应用

    1. 客户的获取。在大多数的商业领域中,业务发展的主要指标包括新客户的获取能力。企业的市场部门人员可以采用传统的方法来发展新客户,如开展广告活动;也可以根据所了解的目标客户群,将他们分类,然后进行直销活动。但是,随客户数量不断增长和每位客户的细节因素增多,要得出选择出相关的人口调查属性的筛选条件也会变得很困难。而数据挖掘技术可以帮助完成潜在客户的筛选工作。
    2. 客户的保持。随着行业中的竞争愈来愈激烈和获得一个新客户的开支愈来愈大,保持原有客户的工作也愈来愈有价值。在CRM的实施中,企业通过预测,找出可能会流失的客户,并分析出主要有哪些因素导致他们想要离开,在此基础上,有针对性地挽留那些有离开倾向的客户。
    3. 客户的细分。细分是指将一个大的消费群体划分为一个个细分群体的动作,同属一个细分群的消费者彼此相似,而隶属于不同细分群的消费者被视为不同的。通过CRM的实施,将产生细分的客户群,企业根据客户提出的要求不断地改善产品和服务,从而使企业不断提高使该客户群满意的能力。

    6) WEB日志挖掘在电子商务网站中的应用

    作为电子商务网站的运营者不仅要掌握用户在网上关心哪些商品,更重要的是要掌握匿名用户怎么变成注册用户,转化率是多少,匿名用户是直接访问的还是通过搜索引擎链接来的,购买行为如何,业绩是多少等。对于电子邮件市场推广,通过沉默用户分析其沉默时间,根据发出量、返回量、成交量来判断市场推广效果。对于广告市场推广,通过曝光量、点击量、成交量来反映市场推广的效果。

    1. 概要统计。网站的概要统计包括分析覆盖的时间、总的页面数、访问数、会话数、惟一访问者、以及平均访问、最高访问、上周访问、昨日访问等结果集。
    2. 内容访问分析。内容访问分析包括最多及最少被访问的页面、最多访问路径、最多访问的新闻、最高访问的时间等。
    3. 客户信息分析。客户信息分析包括访问者的来源省份统计、访问者使用的浏览器及操作系统分析、访问来自的页面或者网站、来自的IP地址以及访问者使用的搜索引擎。
    4. 访问者活动周期行为分析。访问者活动周期行为分析包括一周7天的访问行为、一天24小时的访问行为、每周的最多的访问日、每天的最多访问时段等。
    5. 主要访问错误分析。主要访问错误分析包括服务端错误、页面找不到错误等。
    6. 网站栏目分析。网站栏目分析包括定制的频道和栏目设定,统计出各个栏目的访问情况,并进行分析。
    7. 商务网站扩展分析。商务网站扩展分析是专门针对专题或多媒体文件或下载等内容的访问分析。

    7) WEB 商业智能 BI

    1. 异常访问分析 一般情况下,正常的用户访问网站都是通过浏览器向网站发送URL请求,操作是一个手动平缓的过程。 所谓“异常访问”,是指不是通过浏览器,而是通过程序进行的一个高速机械化的连续URL请求过程。这包括不良程序黑客攻击、搜索引擎蜘蛛程序对网站的访问等。 “异常访问”主要包括5个功能:异常访问分析、搜索引擎访问分析、发生错误分析、异常URL分析、时段访问分析。 通过“异常访问分析”,可以让用户发现异常访问行为和访问规律,通过对URL请求 频度、服务器处理时间、请求流量等时序图形趋势分析,确定黑客攻击点,排查软件错误、诊断服务器处理能力、网站Internet带宽限制“瓶颈”所在点。
    2. 频道关联分析 频道关联分析应用对象是内容管理者。网站在内容服务层面被抽象为“频道–子频道–内容”,组成“网站结构树”。关联分析的目的,是发现在一个事物中,各个元素的关联关系,通过关联关系的发现,指导“关系设置”,进而引导事物向有利于管理者主观倾向的方向发展。
    3. 特定关联分析 “频道关联分析”是在内逻辑层面的关联分析,对于“广告”和用户特别关心的Page关联分析是网站管理者希望掌握的数据。 哪些Page对于广告的贡献有多大?看广告的人更多的看了哪些Page? 特别推出的内容与网站的其他URL有哪些关联?关联程度如何? Web-DM的“特定关联分析”给出深入分析结果,同时以简单直观的形式展示给用户。
    展开全文
  • XML与Web数据挖掘

    2008-07-29 10:38:00
    面向Web的数据挖掘是一项复杂的技术,由于Web数据挖掘比单个数据仓库的挖掘要复杂的多,因而面向Web的数据挖掘成了一个难以解决的问题。而XML的出现为解决Web数据挖掘的难题带来了机会。 面向Web的数据挖掘面临的...
     
    

    面向Web的数据挖掘是一项复杂的技术,由于Web数据挖掘比单个数据仓库的挖掘要复杂的多,因而面向Web的数据挖掘成了一个难以解决的问题。而XML的出现为解决Web数据挖掘的难题带来了机会。  

    面向Web的数据挖掘面临的挑战

    Web 上有海量的数据信息,怎样对这些数据进行复杂的应用成了现今数据库技术的研究热点。数据挖掘就是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题。充分利用有用的数据,废弃虚伪无用的数据,是数据挖掘技术的最重要的应用。

    相对于Web的数据而言,传统的数据库中的数据结构性很强,即其中的数据为完全结构化的数据,而Web上的数据最大特点就是半结构化。所谓半结构化是相对于完全结构化的传统数据库的数据而言。显然,面向Web的数据挖掘比面向单个数据仓库的数据挖掘要复杂得多。

    1.异构数据库环境

    从数据库研究的角度出发,Web网站上的信息也可以看作一个数据库,一个更大、更复杂的数据库。Web上的每一个站点就是一个数据源,每个数据源都是异构的,因而每一站点之间的信息和组织都不一样,这就构成了一个巨大的异构数据库环境。如果想要利用这些数据进行数据挖掘,首先,必须要研究站点之间异构数据的集成问题,只有将这些站点的数据都集成起来,提供给用户一个统一的视图,才有可能从巨大的数据资源中获取所需的东西。其次,还要解决Web上的数据查询问题,因为如果所需的数据不能很有效地得到,对这些数据进行分析、集成、处理就无从谈起。

    2.半结构化的数据结构

    Web 上的数据与传统的数据库中的数据不同,传统的数据库都有一定的数据模型,可以根据模型来具体描述特定的数据。而Web上的数据非常复杂,没有特定的模型描述,每一站点的数据都各自独立设计,并且数据本身具有自述性和动态可变性。因而,Web上的数据具有一定的结构性,但因自述层次的存在,从而是一种非完全结构化的数据,这也被称之为半结构化数据。半结构化是Web上数据的最大特点。

    3.解决半结构化的数据源问题

    Web 数据挖掘技术首要解决半结构化数据源模型和半结构化数据模型的查询与集成问题。解决Web上的异构数据的集成与查询问题,就必须要有一个模型来清晰地描述 Web上的数据。针对Web上的数据半结构化的特点,寻找一个半结构化的数据模型是解决问题的关键所在。除了要定义一个半结构化数据模型外,还需要一种半结构化模型抽取技术,即自动地从现有数据中抽取半结构化模型的技术。面向Web的数据挖掘必须以半结构化模型和半结构化数据模型抽取技术为前提。

    XML与Web数据挖掘技术

    以XML 为基础的新一代WWW环境是直接面对Web数据的,不仅可以很好地兼容原有的Web应用,而且可以更好地实现Web中的信息共享与交换。XML可看作一种半结构化的数据模型,可以很容易地将XML的文档描述与关系数据库中的属性一对应起来,实施精确地查询与模型抽取。

    1.XML的产生与发展

    XML (eXtensibleMarkupLanguage)是由万维网协会(W3C)设计,特别为Web应用服务的SGML (StandardGeneralMarkupLanguage)的一个重要分支。

    总的来说,XML是一种中介标示语言(Meta- markupLanguage),可提供描述结构化资料的格式,详细来说,XML是一种类似于HTML,被设计用来描述数据的语言。XML提供了一种独立的运行程序的方法来共享数据,它是用来自动描述信息的一种新的标准语言,它能使计算机通信把Internet的功能由信息传递扩大到人类其他多种多样的活动中去。XML由若干规则组成,这些规则可用于创建标记语言,并能用一种被称作分析程序的简明程序处理所有新创建的标记语言,正如HTML为第一个计算机用户阅读Internet文档提供一种显示方式一样,XML也创建了一种任何人都能读出和写入的世界语。XML解决了HTML不能解决的两个Web问题,即Internet发展速度快而接入速度慢的问题,以及可利用的信息多,但难以找到自己需要的那部分信息的问题。XML能增加结构和语义信息,可使计算机和服务器即时处理多种形式的信息。因此,运用XML的扩展功能不仅能从Web服务器下载大量的信息,还能大大减少网络业务量。

    XML 中的标志(TAG)是没有预先定义的,使用者必须要自定义需要的标志,XML是能够进行自解释(SelfDescribing)的语言。XML使用DTD (DocumentTypeDefinition文档类型定义)来显示这些数据,XSL(eXtensibleStyleSheetLanguage)是一种来描述这些文档如何显示的机制,它是XML的样式表描述语言。XSL的历史比HTML用的CSS(层叠式样式表 CascadingStyleSheets)还要悠久,XSL包括两部分:一个用来转换XML文档的方法;一个用来格式化XML文档的方法。XLL (eXtensibleLinkLanguage)是XML连接语言,它提供XML中的连接,与HTML中的类似,但功能更强大。使用XLL,可以多方向连接,且连接可以存在于对象层级,而不仅仅是页面层级。由于XML能够标记更多的信息,所以它就能使用户很轻松地找到他们需要的信息。

    利用XML,Web 设计人员不仅能创建文字和图形,而且还能构建文档类型定义的多层次、相互依存的系统、数据树、元数据、超链接结构和样式表。

    2.XML的主要特点

    正是XML的特点决定了其卓越的性能表现。XML作为一种标记语言,有许多特点:

    (1)简单。XML经过精心设计,整个规范简单明了,它由若干规则组成,这些规则可用于创建标记语言,并能用一种常常称作分析程序的简明程序处理所有新创建的标记语言。XML能创建一种任何人都能读出和写入的世界语,这种创建世界语的功能叫做统一性功能。如XML创建的标记总是成对出现,以及依靠称作统一代码的新的编码标准。

    (2)开放。XML是SGML在市场上有许多成熟的软件可用来帮助编写、管理等,开放式标准XML的基础是经过验证的标准技术,并针对网络做最佳化。众多业界顶尖公司,与W3C的工作群组并肩合作,协助确保交互作业性,支持各式系统和浏览器上的开发人员、作者和使用者,以及改进XML标准。XML解释器可以使用编程的方法来载入一个XML的文档,当这个文档被载入以后,用户就可以通过XML文件对象模型来获取和操纵整个文档的信息,加快了网络运行速度。

    (3)高效且可扩充。支持复用文档片断,使用者可以发明和使用自己的标签,也可与他人共享,可延伸性大,在XML中,可以定义无限量的一组标注。XML提供了一个标示结构化资料的架构。一个XML组件可以宣告与其相关的资料为零售价、营业税、书名、数量或其它任何数据元素。随着世界范围内的许多机构逐渐采用 XML标准,将会有更多的相关功能出现:一旦锁定资料,便可以使用任何方式透过电缆线传递,并在浏览器中呈现,或者转交到其他应用程序做进一步的处理。 XML提供了一个独立的运用程序的方法来共享数据,使用DTD,不同的组中的人就能够使用共同的DTD来交换数据。你的应用程序可以使用这个标准的DTD 来验证你接受到的数据是否有效,你也可以使用一个DTD来验证你自己的数据。

    (4)国际化。标准国际化,且支持世界上大多数文字。这源于依靠它的统一代码的新的编码标准,这种编码标准支持世界上所有以主要语言编写的混合文本。在HTML 中,就大多数字处理而言,一个文档一般是用一种特殊语言写成的,不管是英语,还是日语或阿拉伯语,如果用户的软件不能阅读特殊语言的字符,那么他就不能使用该文档。但是能阅读XML语言的软件就能顺利处理这些不同语言字符的任意组合。因此,XML不仅能在不同的计算机系统之间交换信息,而且能跨国界和超越不同文化疆界交换信息。

    3.XML在Web数据挖掘中的应用

    XML 已经成为正式的规范,开发人员能够用XML的格式标记和交换数据。XML在三层架构上为数据处理提供了很好的方法。使用可升级的三层模型,XML可以从存在的数据中产生出来,使用XML结构化的数据可以从商业规范和表现形式中分离出来。数据的集成、发送、处理和显示是下面过程中的每一个步骤:

    促进XML应用的是那些用标准的HTML无法完成的Web应用。这些应用从大的方面讲可以被分成以下四类:需要Web客户端在两个或更多异质数据库之间进行通信的应用;试图将大部分处理负载从Web服务器转到Web客户端的应用;需要Web客户端将同样的数据以不同的浏览形式提供给不同的用户的应用;需要智能Web代理根据个人用户的需要裁减信息内容的应用。显而易见,这些应用和Web的数据挖掘技术有着重要的联系,基于Web的数据挖掘必须依靠它们来实现。

    XML 给基于Web的应用软件赋予了强大的功能和灵活性,因此它给开发者和用户带来了许多好处。比如进行更有意义的搜索,并且Web数据可被XML唯一地标识。没有XML,搜索软件必须了解每个数据库是如何构建的,但这实际上是不可能的,因为每个数据库描述数据的格式几乎都是不同的。由于不同来源数据的集成问题的存在,现在搜索多样的不兼容的数据库实际上是不可能的。XML能够使不同来源的结构化的数据很容易地结合在一起。软件代理商可以在中间层的服务器上对从后端数据库和其它应用处来的数据进行集成。然后,数据就能被发送到客户或其他服务器做进一步的集合、处理和分发。XML的扩展性和灵活性允许它描述不同种类应用软件中的数据,从描述搜集的Web页到数据记录,从而通过多种应用得到数据。

    同时,由于基于XML的数据是自我描述的,数据不需要有内部描述就能被交换和处理。利用XML,用户可以方便地进行本地计算和处理,XML格式的数据发送给客户后,客户可以用应用软件解析数据并对数据进行编辑和处理。使用者可以用不同的方法处理数据,而不仅仅是显示它。XML文档对象模式(DOM)允许用脚本或其他编程语言处理数据,数据计算不需要回到服务器就能进行。 XML可以被利用来分离使用者观看数据的界面,使用简单灵活开放的格式,可以给Web创建功能强大的应用软件,而原来这些软件只能建立在高端数据库上。另外,数据发到桌面后,能够用多种方式显示。

    XML 还可以通过以简单开放扩展的方式描述结构化的数据,XML补充了HTML,被广泛地用来描述使用者界面。HTML描述数据的外观,而XML描述数据本身。由于数据显示与内容分开,XML定义的数据允许指定不同的显示方式,使数据更合理地表现出来。本地的数据能够以客户配置、使用者选择或其他标准决定的方式动态地表现出来。CSS和XSL为数据的显示提供了公布的机制。通过XML,数据可以粒状地更新。每当一部分数据变化后,不需要重发整个结构化的数据。变化的元素必须从服务器发送给客户,变化的数据不需要刷新整个使用者的界面就能够显示出来。但在目前,只要一条数据变化了,整一页都必须重建。这严重限制了服务器的升级性能。XML也允许加进其他数据,比如预测的温度。加入的信息能够进入存在的页面,不需要浏览器重新发一个新的页面。XML应用于客户需要与不同的数据源进行交互时,数据可能来自不同的数据库,它们都有各自不同的复杂格式。但客户与这些数据库间只通过一种标准语言进行交互,那就是XML。由于 XML的自定义性及可扩展性,它足以表达各种类型的数据。客户收到数据后可以进行处理,也可以在不同数据库间进行传递。总之,在这类应用中,XML解决了数据的统一接口问题。但是,与其他的数据传递标准不同的是,XML并没有定义数据文件中数据出现的具体规范,而是在数据中附加TAG来表达数据的逻辑结构和含义。这使XML成为一种程序能自动理解的规范。

    XML 应用于将大量运算负荷分布在客户端,即客户可根据自己的需求选择和制作不同的应用程序以处理数据,而服务器只须发出同一个XML文件。如按传统的 “Client/Server”工作方式,客户向服务器发出不同的请求,服务器分别予以响应,这不仅加重服务器本身的负荷,而且网络管理者还须事先调查各种不同的用户需求以做出相应不同的程序,但假如用户的需求繁杂而多变,则仍然将所有业务逻辑集中在服务器端是不合适的,因为服务器端的编程人员可能来不及满足众多的应用需求,也来不及跟上需求的变化,双方都很被动。应用XML则将处理数据的主动权交给了客户,服务器所作的只是尽可能完善、准确地将数据封装进XML文件中,正是各取所需、各司其职。XML的自解释性使客户端在收到数据的同时也理解数据的逻辑结构与含义,从而使广泛、通用的分布式计算成为可能。

    XML 还被应用于网络代理,以便对所取得的信息进行编辑、增减以适应个人用户的需要。有些客户取得数据并不是为了直接使用而是为了根据需要组织自己的数据库。比方说,教育部门要建立一个庞大的题库,考试时将题库中的题目取出若干组成试卷,再将试卷封装进XML文件,接下来在各个学校让其通过一个过滤器,滤掉所有的答案,再发送到各个考生面前,未经过滤的内容则可直接送到老师手中,当然考试过后还可以再传送一份答案汇编。此外,XML文件中还可以包含进诸如难度系数、往年错误率等其他相关信息,这样只需几个小程序,同一个XML文件便可变成多个文件传送到不同的用户手中。

    结束语

    面向Web的数据挖掘是一项复杂的技术,由于Web数据挖掘比单个数据仓库的挖掘要复杂的多,因而面向Web的数据挖掘成了一个难以解决的问题。而XML的出现为解决Web数据挖掘的难题带来了机会。

    由于XML能够使不同来源的结构化的数据很容易地结合在一起,因而使搜索多样的不兼容的数据库能够成为可能,从而为解决Web数据挖掘难题带来了希望。XML的扩展性和灵活性允许XML描述不同种类应用软件中的数据,从而能描述搜集的Web页中的数据记录。

    同时,由于基于XML的数据是自我描述的,数据不需要有内部描述就能被交换和处理。作为表示结构化数据的一个工业标准,XML为组织、软件开发者、Web站点和终端使用者提供了许多有利条件。相信在以后,随着XML作为在Web上交换数据的一种标准方式的出现,面向Web的数据挖掘将会变得非常轻松。

    展开全文
  • Web数据挖掘技术综述

    千次阅读 2007-08-28 12:52:00
    摘要:Web数据挖掘是目前数据挖掘领域中的一个很重要的研究领域,文章首先分析了Web数据挖掘所面临的问题,然后简要介绍了Web数据挖掘的几个分类,最后简单阐述了在Web2.0到来之时,Web数据挖掘所面临的机遇与挑战。...
  • Web数据挖掘小论文

    千次阅读 2014-07-05 16:51:32
    Web数据挖掘是利用数据挖掘技术从Web文档和Web服务器中发现并提取人们感兴趣的信息或知识的过程。涉及到Internet技术、人工智能、计算机语言学、信息学、统计学等多个领域。 Web包含了丰富和动态的超链接信息,以及...
  • Web数据挖掘的研究现状及发展

    千次阅读 2008-04-06 21:30:00
    本文概要介绍了Web数据挖掘在三个研究领域的研究现状及发展。关键词:数据挖掘;Web挖掘; 1.Web挖掘概述随着以数据库、数据仓库等数据仓储技术为基础的信息系统在各行各业的应用,使海量数据不断产生。随之而来
  • Web数据挖掘的研究现状及发展

    千次阅读 2006-10-20 01:39:00
    杨庆跃 北京大学计算机系摘要: 随着Internet/Web技术的...本文概要介绍了Web数据挖掘在三个研究领域的研究现状及发展。关键词:数据挖掘;Web挖掘; 1.Web挖掘概述 随着以数据库、数据仓库等数据仓储技术为基础的
  • XML与Web数据挖掘技术

    千次阅读 2004-10-08 09:09:00
    XML与Web数据挖掘技术 作者:fuyiping 日期:2004年08月22日 浏览次数:179  以XML为基础的新一代WWW环境是直接面对Web数据的,不仅可以很好地兼容原有的Web 应用,而且可以更好地实现Web中的...
  • Web数据挖掘所面临的挑战

    千次阅读 2007-10-26 16:56:00
    相对于Web数据而言,传统的数据库中的数据结构性很强,即其中的数据为完全结构化的数据,而Web上的数据最大特点就是半结构化。HTML描述数据的外观,而XML描述数据本身。但是,与其他的数据传递标准不同的是,XML并...
  • 摘要:本文概括了Web挖掘在数字图书馆中的应用、Web挖掘的难点及XML在Web数据挖掘中的优势,说明了将XML应用于Web数据挖掘的几个方面,最后给出一个利用XML及Java类进行Web挖掘的实例。关键词:XML,Web,数据库,...
  • 数据挖掘Web挖掘和文本挖掘

    千次阅读 2017-09-16 23:53:22
    Web 挖掘 在分布式信息环境中,文档或对象通常被链接在一起,以便于互相访问,这种提供信息的环境包括WWW和在线服务,用户可以通过某些工具从一个对象转到另一个对象 Web挖掘任务划分为4个任务: A: 寻找资源,这...
  • 基于WEB数据挖掘综述

    千次阅读 2007-06-30 17:25:00
    周 竞扬MG0133041南京大学计算机科学与技术系分布式与并行系统实验室江苏 南京 210093摘 要 基于WEB数据挖掘是当前相当热门的方向之一,本文对此作了一个比较全面的综述。概括了基于WEB数据挖掘的主要概念和...
  • 面向Web数据挖掘

    2008-04-07 09:28:00
    现在,很多企业迎接客户的场所已经从传统的物理上的客户接待室转移到了企业网站...怎样对Web上的数据进行复杂的应用,数据挖掘开始大显身手。充分利用有用的数据,废弃虚伪无用的数据,是数据挖掘技术的最重要的应用。
  • 面向Web数据挖掘 Web上有海量的数据信息,怎样对这些数据进行复杂的应用成了现今数据库技术的研究热点。数据挖掘就是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题。充分利用有用的数据,废弃...
  • XML与面向Web数据挖掘技术

    千次阅读 2006-02-15 23:22:00
    面向Web数据挖掘 Web上有海量的数据信息,怎样对这些数据进行复杂的应用成了现今数据库技术的研究热点。数据挖掘就是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题。充分利用有用的数据,废弃...
  • 周 竞 扬 MG0133041 南京大学计算机科学与技术系分布式与并行系统实验室 江苏 南京 210093摘 要基于WEB数据挖掘是当前相当热门的方向之一本文对此作了一个比较全面的综述概括了基于WEB
  • 面向Web数据挖掘 技术分析

    千次阅读 2004-10-03 18:26:00
    数据挖掘就是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题。充分利用有用的数据,废弃虚伪无用的数据,是数据挖掘技术的最重要的应用。相对于Web的数据而言,传统的数据库中的数据结构性很强,即...
  • 解析XML与面向Web数据挖掘技术

    千次阅读 2004-12-03 23:51:00
    面向Web数据挖掘 Web上有海量的数据信息,怎样对这些数据进行复杂的应用成了现今数据库技术的研究热点。数据挖掘就是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题。充分利用有用的数据,废弃...
  • 数据库系统---数据挖掘

    千次阅读 2018-08-27 21:10:54
    数据挖掘  随着数据库技术的迅速发展及数据库管理系统的广泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统...
  • 基于 Web数据挖掘

    千次阅读 2004-10-06 18:11:00
    基于 Web数据挖掘英文原文内容:HTML:优点与缺点背景技术方法概述获取 XHTML 格式的源信息查找数据的引用点将数据映射成 XML

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 42,489
精华内容 16,995
关键字:

web数据挖掘是通过数据库