精华内容
下载资源
问答
  • 一份基于红酒数据集的分类方法对比的实验报告,关联机器学习与数据挖掘,采用朴素贝叶斯与线性逻辑回归方法进行比较
  • 决策树分类数据挖掘

    千次阅读 2019-01-13 20:41:26
    数据是怎么分类的? B如何选择分类的属性? C什么时候停止分裂? ①决策树 1. 决策树分类方法 从数据中生成分类器的一个有效的方法就是生成一个决策树。是从一组无次序、无规则的事例中推理出决策树表示...

    ※写在前面的思考:
    A数据是怎么分类的?
    B如何选择分类的属性?
    C什么时候停止分裂?

    ①决策树

    1. 决策树分类方法

    从数据中生成分类器的一个有效的方法就是生成一个决策树。是从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。决策树分类方法采用自顶向下的递归形式(实质就是分而治之),在决策树的内部节点进行属性值的比较并根据不同的属性值判断从该结点向下的分支,在决策树的叶节点得到结论。所以从决策树的根到叶节点的一条路径就对应着一条合取规则,整棵决策树就对应着一组析取表达式的规则。决策树的非叶节点表示属性;节点向下的分支对应属性的属性值;叶节点表示类别。分类类别为未知的新实例时可以从这颗树的根节点开始,测试这个节点对应的属性,按照给定实例的属性的属性值沿着树枝向下移动,这个过程在新节点为根的子树上重复,直到进行到叶节点得到新实例的类别为止。

    2. 基本概念与原理

    决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。
    他属于监督学习。所谓监督学习就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类。
    (A)决策树采用自顶向下的贪婪算法,在每个节点选择分类效果最好的属性(分裂属性的数据类型分为离散型和连续性两种情况,对于离散型的数据,按照属性值进行分裂,每个属性值对应一个分裂节点;对于连续性数据,一般性的做法是对数据按照该属性进行排序,再将数据分成若干区间,如[0,10]、[10,20]、[20,30]…,一个区间对应一个节点,若数据的属性值落入某一区间则该数据就属于其对应的节点。)进行分类,重复此过程,直到这棵树能准确的分类训练样本,或者所有的属性都被使用过。
    决策树构造完成后通常需要进行剪枝操作,以限制决策树的规模来提高预测精度。核心问题是在每个节点选取要测试的属性,以及对决策树进行剪枝处理。
    (B)树的建立一般都是通过在内部节点选择一个最优的测试属性对训练及反复的进行划分,并建立下一级的节点。直到每个划分都只包含同一种类的样本为止,这时称为纯划分。

    3. 一般性描述

    1) 开始时是一个未经处理的数据训练集和一棵空树,然后对当前节点进行测试,并将其划分。
    2) 如果当前节点的训练样本都为同一个类别,则创建一个带有该类标签的叶子节点并停止。
    3) 否则的话,用最优测量计算每个集合的每个可能的划分。
    4) 选择最优划分为当前节点的测试。

    4. 决策树构建方法的递归停止条件(C)

    (1) 当前节点的样本均为同一类别。
    (2) 某一分支没有符合测试条件的样本,创建一个叶子节点并将其标记为默认类别。
    (3) 候选属性集为空。

    ②属性分裂标准:信息增益法

    Ⅰ信息熵
    训练集中的数据每一个属性都包含了一定的信息,这些信息的作用是减少整个数据集的不确定性,一般称信息不确定性为信息熵。(信息量的度量就等于不确定性的多少,即:不确定性越大,熵也越大)
    信息增益方法选取最高信息增益(熵减少的程度最大)的属性作为当前节点的分类属性,以便使划分获得的训练样本自己进行分类所需的信息量最少(因为不确定性减少了)。(减少的信息量就是通过一次划分之后通过某个属性所获得的信息量)
    ※信息量满足的条件
    •信息量不是负数
    •信息量之间可以相加
    •信息量连续依赖于概率
    •信息量大小与可能结果数量有关,假如每一个可能的结果出现的概率一样,那么对于可能结果数量多的那个事件,新信息有更大的潜力具有更大的信息量,因为初始状态下不确定性更大。
    ※信息熵的表达式
    (1)

    式中, 表示X在样本数据集中的样本比例。
    信息论认为:一个消息所表达的信息取决于它的概率p,并且可以用 来表示其包含的信息。Log是以2为底的,因为在信息论中信息都是按二进制位编码的。
    Ⅱ信息增益
    假设在样本数据集 D 中,混有 c 种类别的数据。构建决策树时,根据给定的样本数据集选择某个特征值作为树的节点。在数据集中,可以计算出该数据中的信息熵:
    •作用前的信息熵计算公式
    (2) 在这里插入图片描述
    式中: 表示第i个类别在样本数据集中的样本比例。
    对应数据集 D,选择特征 A 作为决策树判断节点时,在特征 A 作用后的信息熵的为 Info(D),计算如下:
    •作用后的信息熵计算公式(也就是期望的平均信息量)
    (4) 在这里插入图片描述
    式中,k代表样本D被分成k个部分。
    信息增益表示数据集 D 在特征 A 的作用后,其信息熵减少的值。公式如下:
    •信息熵差值计算公式
    (5) 在这里插入图片描述
    例如:如下图作为样本数据集,进行决策树分类。
    有三个类别,分别是 鱼类、哺乳动物、爬行动物;四个属性,鱼类、产奶、有鳍、有毒。样本数目一共是13个,鱼类5个,哺乳动物,爬行动物各四个。
    在这里插入图片描述在这里插入图片描述
    Step1:计算总的平均信息量
    Step2:分别计算按照按照不同属性划分的平均信息量
    Step3:计算信息增益
    Step4:根据求得的信息增益,其中最优分裂属性为数据集中所有属性中信息增益最大的属性。
    在这里插入图片描述
    选择信息增益最大的那个为最优属性。

    ③ 用SSAS对三国数据进行决策树分析

    1)Microsoft SQl Server 2008 Analysis Services 的操作步骤

    1. 打开集成环境页面
      依次执行“开始”→“所有程序”→“Microsoft SQL Server 2008”→“SQL Server Business Intelligence Development Studio”命令,打开Analysis Service集成环境界面。

    2. 新建项目
      (1) 执行菜单栏的“文件”→“新建”→“项目”命令,打开如图所示的“新建项目”对话框。(2) 选中“Analysis Services”项目,分别在“名称”、“解决方案名称”文本框中,填写项目名称和解决方案名称;在“位置”下拉文本框中,单击右侧的“浏览”钮,选择解决方案的保存路径。。
      (3) 单击“确定”按钮,返回集成环境的起始界面,在右上角显示“解决方案资源管理器”字样。

    3. 创建数据源

    4. 创建数据源视图

    5. 创建适用于三国的挖掘结构

    6. 部署项目并处理挖掘模型

    7. 模型解释

    在这里插入图片描述
    由生成的决策树按照属性分成了三个级别,颜色的深浅代表了事例数目的多少。
    在这里插入图片描述在这里插入图片描述和身份有相关性的属性有武力、智慧和政治。
    在这里插入图片描述在这里插入图片描述

    展开全文
  • 本文主要侧重数据挖掘分类算法的效果的对比,通过简单的实验(采用开源的数据挖掘工具-Weka)来验证不同的分类算法的效果,帮助数据挖掘新手认识不同的分类算法的特点,并且掌握开源数据挖掘工具的使用。...
  • 数据挖掘分类数据

    2018-12-24 20:04:06
    此文件为数据挖掘分类实验数据集,内含说明文档,没有压缩密码
  • 国科大2020年刘莹数据挖掘大作业 天体光谱数据分类。我们小组是利用resnet对一维光谱数据进行分类。压缩包里面有我们的实验报告,应该还算是挺详细的
  • 数据挖掘——分类

    万次阅读 多人点赞 2018-10-10 21:52:21
    分类:一种数据分析形式,它提取刻画重要数据类的模型。这种模型叫分类器,进而预测分类的(离散的、无序的)类标号。 相关概念解释 训练集:由数据库元组和与它们相关联的类标号组成。 元组X用n维属性向量...

    分类

    基本概念
    分类:一种数据分析形式,它提取刻画重要数据类的模型。这种模型叫分类器,进而预测分类的(离散的、无序的)类标号

    预测问题
    分类两个阶段
    相关概念解释

    • 训练集:由数据库元组和与它们相关联的类标号组成。
    • 元组X用n维属性向量x=(x1,x2,x3……xn)表示,分别描述元组在n维数据库中的n个属性值的集合。
    • 每个元组都可预先定义为一个,由一个称为类标号属性的数据库属性确定。
    • 类标号属性:是离散的无序的。它是分类的(标称的。标称属性的值仅仅只是不同的名字,以区分不同对象)。因为每个值充当一个类别或类。
    • 数据元组也称为:样本、记录、实例、对象、数据点。
    • 属性值也称:变量、特征、字段、维。
    • 属性的数量称为维度
    • 由训练集所得到的学习模型:可用分类规则决策树数学公式的形式表示。

    第一步 建立模型(可看作学习一个函数y=f(x),它可预测给定元组X的类标号y。)
    在这里插入图片描述
    第二步 检验模型并用于新的分类(由检验集评估分类器的准确率,再应用于新的数据进行分类)
    在这里插入图片描述
    如上图分类的预测任务,首先通过已有的数据集(训练集)进行训练学习,得到一个目标函数(学习模型或分类规则),再通过检验集的数据对该模型的准确度评估,若通过评估,则该规则应用于新的数据元组分类。

    • 分类器在给定检验集上的准确率是指分类器正确分类的检验元组所占的百分比。通过每个检验元组的类标号与学习模型对该元组的类预测进行比较。

    • 监督学习 (用于分类)
      即分类器的学习,是在已知每个训练元组的类别的“监督下”进行的。
    • 无监督学习(用于聚类)
      每个训练元组的类标号未知,并且学习的类的个数和集合也可能是事先未知的。

    在这里插入图片描述

    1. 什么是决策树?
    2. 类似于流程图的树结构
    3. 每个内部节点表示在一个属性上的测试
    4. 每个分枝代表一个测试输出
    5. 每个树叶节点存放一个类编号

    决策树:Buys_computer
    在这里插入图片描述

    1. 决策树是如何分类的?
      给定一个类标号未知的元组X,在决策树上测试元组的属性值,跟踪一条由根到叶节点的路径,叶节点存放该元组的类预测。
    2. 决策树的生成由两个阶段组成
      决策树构建
      1.) 使用属性选择度量来选择属性,使元组能最好的划分为不同的类。
      2.) 递归的通过选定属性,来划分样本(必须是离散值)。
      树剪枝
      1.) 决策树建立时,许多分枝反映的是训练数据中的噪声和离群点点,树剪枝试图识别并剪去这种分枝,以提高对未知数据分类的准确性。
    3. 决策树的基本算法
      在这里插入图片描述
      算法主要步骤:
    • 以训练样本的单个节点N开始;
    • 如果样本都在同一类,则该节点成为树叶,并用该类标记。
    • 否则,算法调用Attribute_selection_method(属性选择度量),选择能够最好的将样本分类的属性,确定“分裂准则”,指出“分裂点”或“分裂子集”;
    • 对测试属性每个已知的值,创建一个分支,并以此划分元组;
    • 算法使用同样的过程,递归的形成每个划分上的元组决策树。一旦一个属性出现在一个节点上,就在该节点的子节点上删除;

    递归划分步骤停止的条件

    • 情形(1):划分D(在N节点提供)的所有元组属于同一类
    • 情形(2):当前属性集为空,或所有样本在所有属性上取值相同,无法划分。
    • 情形(3):没有剩余的样本。
    • 给定分支没有元组,则以D中多数类创建一个树叶

    注:整个决策树建立的关键是:属性选择的度量,也是算法的核心


    1. 属性选择度量(分裂准则)

    问题: 如何选择元组的属性进行优先建树,使得将所有训练元组能最好的划分??(也即使决策树简单)。
    eg. 女生约会是否见男生。eg. 明天是否打球案例。
    在这里插入图片描述
    理想的划分是,使每个划分都是“纯”的,即落在给定划分内的元组都属于同一类。
    2. 常用的属性选择度量

    • 信息增益
    • 增益率
    • Gini指数

    3. 使用符号如下:
    设数据分区D为标记类元组的训练集,类标号属性具有m个不同值,定义了m个不同类Ci(i=1,2,3…,m),设Ci, D 是D中Ci类元组的集合,|D|和|Ci, D|分别是D和Ci, D中元组的个数。

    信息增益

    ID3算法使用信息增益作为属性选择度量。它是基于香农的信息论,对信息进行度量的方法。(可参考信息论的文章xxx)。
    设节点N存放分区D的元组,选择具有最高信息增益的属性作为节点N的分裂属性。该属性使最终的结果分区中对元组分类所需要的信息量最小。这种方法使得对一个元组进行分类的测试数目最小,并确保找到一颗简单的树。

    对D中元组分类所需要的期望信息由下式计算:

    其中,Pi是D中任意元组属于类Ci的非零概率,用|Ci, D|/|D|估计。用到信息论里面的自信息量公式,表示事件x发生前,事件发生的不确定性,或事件发生后,所得到信息量。在这里插入图片描述
    Info(D)是对D中所有元组分类所需要的期望信息(平均信息量)。也称为D的熵。是随机变量平均不确定度的度量,同时它也代表了消除随机变量不确定度所需获得的信息量。

    若我们对属性A进行划分元组D,其中A具有v个不同值{a1,a2,a3…,av},若A是离散值,则对应有v个输出,可以用属性A将D划分为v个分区或子集{D1,D2,D3,…Dv},Dj包含D中的元组,它们的属性值都为aj。为了得到准确分类,还需要多少信息量?由下式计算:
    在这里插入图片描述
    在这里插入图片描述
    是第j个分区的权重。在这里插入图片描述
    是基于按A划分对D的元组分类所需要的期望信息。

    信息增益:原来的信息需求与新的信息需求(对A划分后)之间的差。
    Gain(A)=Info(D)-InfoA(D),即对A划分后所获得的信息量。所以选择最高信息增益Gain(A)的属性A作为节点N的分裂属性。等价于在“能做最佳分类”的属性A上划分,使得完成剩余元组的划分所需要的信息量最小。

    例题:
    在这里插入图片描述
    在这里插入图片描述

    展开全文
  • 数据挖掘 | [有监督学习——分类] 朴素贝叶斯及python代码实现——利用sklearn 数据挖掘 | [无监督学习——聚类] K-means聚类及python代码实现——利用sklearn 数据挖掘 | [无监督学习——聚类] 凝聚层次聚类及...
  • 数据挖掘,pyton3.6文本分类
  • 中文文本分类-新闻分类[数据挖掘]

    千次阅读 多人点赞 2020-07-24 14:25:36
    对新闻文本(10类)进行文本分类,通过准确率、召回率、 f1-score 等指标对分类结果进行分析。 python版本:python 3.6 分类方法:朴素贝叶斯 需导入的相关库 import os import time import numpy as np import ...

    对新闻文本(10类)进行文本分类,通过准确率、召回率、 f1-score 等指标对分类结果进行分析。

    python版本:python 3.6
    分类方法:朴素贝叶斯

    需导入的相关库

    import os
    import time
    import numpy as np
    import pandas as pd
    import jieba
    from jieba import analyse
    from sklearn.utils import shuffle
    from sklearn.model_selection import train_test_split
    from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer #词集转换成向量
    from sklearn.naive_bayes import MultinomialNB #朴素贝叶斯多分类
    from sklearn.metrics import classification_report
    import gensim #自然语言处理库
    from gensim import corpora,models,similarities
    

    上述有些库源 在windows下好像与python3.7版本会出现版本不兼容的问题,我在linux下使用3.7正常,windows下出现“DLL load failed”,所以换用3.6

    对数据源选取数据规模

    大家可以选择网上现有的数据源,然后选出自己需要数量的数据。我的数据是我自行爬取的,所以在爬取的时候就做了相应的数据预处理。所以我选取的数据是已经去空行、去重去掉一些乱七八糟的信息之后的数据。
    1、读取数据源

    #读取数据源,注释掉的是拼接数据的部分,有需要的可以参考
    def con_data():
        # df1 = pd.read_csv('chinanews00.csv',names=['category','theme','URL','content'])
        # df2 = pd.read_csv('chinanews11.csv',names=['category','theme','URL','content'])
        # data = pd.concat([df1,df2],axis=0,ignore_index=True) #拼接表格
        data = pd.read_csv('chinanews.csv',names=['category','theme','URL','content'])
        df = data.groupby('category').count()#展示数据规模
        print(df)
        # print(data.shape)
        return data
    

    2、按类别,分别选出前n条
    实验之前做的是100w条数据,但是在这里为了重复方便,我将每类数据缩减为1000条,这样比较快~

    #分组选行
    def group(data,amount,file_path):
        df = data.groupby('category').head(amount)
        df.to_csv(file_path,mode='a',header=None, index=False, encoding="utf-8-sig")
    

    于是就有了目标数据 eg: test.csv

    文本分类

    1、读入待分类数据

    def read_file():
        data = pd.read_csv('test.csv',names=['category','theme','URL','content'])
        df = data.groupby('category').count()#展示数据规模
        print(df)
        return data
    

    数据规模:
    在这里插入图片描述
    样本长这样:
    在这里插入图片描述
    2、对数据进行切割
    这一步可有可无,主要是因为有的新闻文本篇幅很长很长,有的又很短,后面会造成词向量的长短不一。所以理论上来讲,是需要去掉过长或过短的文本内容,使得新闻文本的字数大致保持在一个范围内。不剔除的话,会降低分类的准确率。

    3、jieba分词并去停用词

    def separate_words(data):
        content = data.content.values.tolist() #将文本内容转换为list格式
    	#读入停用词表
        stopwords = pd.read_csv("stopwords.txt",index_col=False,sep="\t",quoting=3,names=['stopword'], encoding='utf-8') #list
        stopwords = stopwords.stopword.values.tolist()
        print("正在分词,请耐心等候......")
        contents_clean = []
        all_words = []
     
        for line in content:
            current_segment = jieba.lcut(line) #jieba分词
            current_segment = [x.strip() for x in current_segment if x.strip()!=''] #去掉分词后出现的大量空字符串
            if len(current_segment) > 1 and current_segment != "\r\n":
                line_clean = []
                for word in current_segment:
                    if word in stopwords:
                        continue
                    line_clean.append(word)
                    all_words.append(str(word))
                contents_clean.append(line_clean)        
        print('------------分词完成-----------')
        return contents_clean, all_words
    

    结果是这样的:
    在这里插入图片描述
    其中,all_words可以用来统计某些词出现的频率,依据这个来修改停用词表stopwords。下图是我按照自己的词频统计,去掉了一些不合理的高频词后出现的结果。
    在这里插入图片描述
    4、标签转换
    中文标签改为数字标签,便于分类

    转换之前的标签:
    在这里插入图片描述

        #标签转换
        label_mappping = {'汽车':1,'财经':2, '法治':3, '社会':4, '体育':5, '国际':6, '文化':7, '军事':8, '娱乐':9, '台湾':0}
        df_train["label"] = df_train["label"].map(label_mappping)
        print(df_train.head())
        print("--------------------------------------3------------------------------------------")
    

    转换之后的结果:
    在这里插入图片描述
    5、切分数据集
    按1:1切分

        #切分数据集
        x_train,x_test,y_train,y_test = train_test_split(df_train["contents_clean"].values,df_train["label"].values,test_size=0.5)
    

    6、开始训练
    因为现在的数据内容是以‘,’分隔开的,所以需要去掉将词与词之间用‘ ’连接起来。

    def format_transform(x): #x是数据集(训练集或者测试集)
        words =[]
        for line_index in range(len(x)):
            try:
                words.append(" ".join(x[line_index]))
            except:
                print("数据格式有问题")
        return words
    
    
        #训练
        words_train = format_transform(x_train) 
        vectorizer = TfidfVectorizer(analyzer='word', max_features=4000,ngram_range=(1, 3),lowercase = False)
        vectorizer.fit(words_train)#转为向量格式
        classifier = MultinomialNB()
        classifier.fit(vectorizer.transform(words_train), y_train)
    

    7、测试,并查看相关结果

        words_test = format_transform(x_test)
        score = classifier.score(vectorizer.transform(words_test), y_test)
        print("----------------------------------分类结果报告-----------------------------------------")
        print("分类准确率:" + str(score))
        print("训练时间:" + str(round((end_1-start_1), 2)) + '秒')
        print("测试时间:" + str(round((end_2-start_2), 2)) + '秒')
        y_predict=classifier.predict(vectorizer.transform(words_test))
        print(classification_report(y_test,y_predict))
    

    出来的结果是这样的:
    在这里插入图片描述
    emmmm,这个分类结果不是很理想。。。可以通过调参提高分类结果准确率。

    展开全文
  • 这是《Python数据挖掘课程》系列文章,前面很多文章都讲解了分类、聚类算法,这篇文章主要讲解SVM分类算法,同时讲解如何读取TXT文件数据并进行数据分析及评价的过程。 文章比较基础,希望对你有所帮助,提供些思路...

    这是《Python数据挖掘课程》系列文章,前面很多文章都讲解了分类、聚类算法,这篇文章主要讲解SVM分类算法,同时讲解如何读取TXT文件数据并进行数据分析及评价的过程。
    文章比较基础,希望对你有所帮助,提供些思路,也是自己教学的内容。推荐大家购买作者新书《Python网络数据爬取及分析从入门到精通(分析篇)》,如果文章中存在错误或不足之处,还请海涵。

    该系列文章代码&数据集下载地址:https://github.com/eastmountyxz/Python-for-Data-Mining
    希望读者能帮Github点个赞,一起加油。

    目录:
    一.SVM基础概念
    二.SVM基本使用方法
    三.TXT红酒数据集预处理
    四.SVM分析红酒数据
    五.代码优化

    PS:最近参加CSDN2018年博客评选,希望您能投出宝贵的一票。我是59号,Eastmount,杨秀璋。投票地址:https://bss.csdn.net/m/topic/blog_star2018/index

    五年来写了314篇博
    展开全文
  • Web数据挖掘综述3篇 分类数据挖掘综述及应用 关联规则数据挖掘综述 基于Web数据挖掘的综述 离群数据挖掘综述 流数据挖掘综述 流数据挖掘综述 时间序列数据挖掘综述 数据挖掘综述6篇 物流管理数据挖掘综述 医学数据...
  • 数据挖掘分类

    千次阅读 2015-10-04 10:51:14
    数据挖掘分类 一、分类综述 1、过分拟合问题: 过拟合的原因: (1)噪声造成的过分拟合(因为它拟合了误标记的训练记录,导致了对检验集中记录的误分类); (2)根据少量训练记录做出分类决策的模型也容易...
  • 数据挖掘:数据清洗——数据不平衡处理 一、什么是数据不平衡? 不平衡数据集指的是数据集各个类别的样本数目相差巨大,也叫数据倾斜。以二分类问题为例,即正类的样本数量远大于负类的样本数量。严格地讲,任何...
  • 基于数据挖掘的文本分类算法.pdf
  • 基于数据挖掘的白酒分类问题研究.pdf
  • 数据挖掘学习代码

    2018-06-12 02:08:48
    简单的数据挖掘模型,内含有数据集,测试代码 可以更好的学习分类降维方法 及一些非监督模型
  • 学生表现 使用数据挖掘分类算法来预测学生的表现。 可在以下链接上找到用于该项目的数据集: :
  • 使用逻辑回归和贝叶斯算法对wine数据集进行分类。包含wine数据集,源代码,实验报告及控制台可执行程序。
  • 基于数据挖掘的鲍鱼分类数据预处理数据可视化异常值分析算法设计
  • 国科大_网络数据挖掘大作业_2017_垃圾短信分类
  • 数据挖掘算法Java实现

    2016-10-20 11:23:38
    这是数据挖掘算法的Java实现,正在学习数据挖掘的同学可以参照这些算法对照书本学习。
  • 天池-零基础入门数据挖掘-心跳信号分类预测-EDA分析全过程-代码
  • 数据挖掘简介及模型介绍(一)

    千次阅读 2020-02-26 15:43:05
    1. 简介 大数据时代正在唤醒企业通过利用客户数据获得竞争优势的机会。数据的广泛使用性和高度复杂性让仅...与此同时,强大的计算机和互联网技术,海量数据和高效算法的融合,催化了数据科学和数据挖掘技术的发展...
  • 基于内容的图像检索是为了提高图像检索的效率,将数据挖掘中的分类技术应用于基于内容的图像信息挖掘领域。图像检索系统的最终用户是人,因此从心理学角度来捕获人对图像内容的认知是相当重要的。为了把用户模型嵌入...
  • 数据挖掘算法及实例

    千次阅读 2019-09-02 15:58:09
    一般来说,数据挖掘的算法包含四种类型,即分类、预测、聚类、关联。前两种属于有监督学习,后两种属于无监督学习,属于描述性的模式识别和发现。有监督学习 有监督的学习,即存在目标变量,需要探索特征变量和目标...
  • 数据挖掘 weka 数据分类实验报告 一实验目的 使用数据挖掘中的分类算法 对数据集进行分类训练并测试 应用不同的分类算法 比较他们之间的不同与此同时了解 Weka平台的基本功能与使用方法 二实验环境 实验采用 Weka ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 117,914
精华内容 47,165
关键字:

分类数据挖掘

友情链接: 实验1 跑马灯实验.zip