精华内容
下载资源
问答
  • 简单朴素贝叶斯分类器的思想与算法分析 在数据仓库和数据挖掘应用中 分类是一种非常重要的方法. 分类的概念是在已有数据 的基础上学会一个分类函数或构造出一个分类模型 即我们通常所说的分类器 (Classifier) .该 ...
  • 基于朴素贝叶斯分类器的文本分类算法 (C语言.txt 两个人吵架先说对不起的人并不是 认输了并不是原谅了他只是比对方更珍惜这份感情#include <stdio.h> #include <string.h> #include <direct.h> //_getcwd, _chdir) #...
  • 贝叶斯分类器(贝叶斯决策论,极大似然估计,朴素贝叶斯分类器,半朴素贝叶斯分类器,贝叶斯网)学习笔记 一、条件概率,全概率公式,贝叶斯公式 !]...

    贝叶斯分类器(贝叶斯决策论,极大似然估计,朴素贝叶斯分类器,半朴素贝叶斯分类器,贝叶斯网)学习笔记

    一、条件概率,全概率公式,贝叶斯公式

    在这里插入图片描述
    贝叶斯公式

    二、贝叶斯决策论

    贝叶斯决策论是概率框架下实施决策的基本方法。对分类任务来说,在所有相关概率都已知的理想情况下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。
    在这里插入图片描述

    (1)基于最小错误率的贝叶斯决策

    核心思想:在得到一个属性X后,我们可以通过先验概率P(c)及类条件概率P(x|c),得到在当前属性X时,该样本分属各类别的概率,然后根据后验概率的大小做出决策,把后验概率大的一个作为分类类别
    推理过程

    • 证明过程

    由于统计判别方法是基于统计参数作出决策,因此错误率也只能从平均的意义上讲,表示为在观测值可能取值的整个范围内错识率的均值。在连续条件下,平均错误率,以P(e)表示,那么P(e)就可以表示为P(e,x)的数学期望,因为这是二分类问题,当做出当P(c2|x)>p(c1|x)时决策为c2。显然这个决策意味着,对属性x有P(c1|x)概率的错误率。同理,当做出当P(c1|x)>p(c2|x)时决策为c1。显然这个决策意味着,对属性x有P(c2|x)概率的错误率。如果我们把作出c1决策的所有观测值区域称为A1,那么在A1区内的每个x值,条件错误概率为p(c2|x)。另一个区A2中的每个x,条件错误概率为p(c1|x)。因此平均错误率P(e)可表示成图中<1>式,由于在A1区内任一个x值都有P(c2|x)<P(c1|x),同样在A2区内任一个x值都有P(c1|x)<P(c2|x)错误率在每个x值处都取小者,因而平均错误率P(e)也必然达到最小,再用条件概率公式变个型,得到<2>式,也就是得到的后验概率。这就证明了按后验概率大小作出的决策,其平均错误率为最小

    (2)基于最小风险的贝叶斯决策

    在这里插入图片描述
    在这里插入图片描述

    三、极大似然估计

    极大似然估计理论

    极大似然估计就是利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值
    在实际应用中,我们能获得的数据可能只有有限数目的样本数据,而先验概率P(c)和类条件概率P(C|X)(各类的总体分布)都是未知的。根据仅有的样本数据进行分类时,一种可行的办法是我们需要先对先验概率和类条件概率进行估计,然后再套用贝叶斯分类器。

    • 对于类先验估计

    在这里插入图片描述

    • 对于类条件估计

    对概率密度函数模型的选择非常重要,在样本区域无穷时,我们会得到较准确的估计值,如果模型都错了,那估计半天的参数,肯定也没啥意义了。
    在这里插入图片描述

    例子:用极大似然估计法估计西瓜数据集3.0中前3个属性的类条件概率

    在这里插入图片描述

    四、朴素贝叶斯分类器

    (1)朴素贝叶斯理论

    朴素贝叶斯是一种生成式模型,由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,及生成模型
    在这里插入图片描述
    生成方法的学习收敛速度更快,即当样本容量增加的时候,学到的模型可以更快地收敛于真实模型

    不难发现,基于贝叶斯公式来计算后验概率P(c|x)的主要困难在于:因为在计算类条件概率P(x|c)是所有属性上的联合概率,难以从有限的训练样本集直接估计得到,所以朴素贝叶斯就作了一个很“强”的假设—对已知类别,假设所有属性相互独立,就是假设每个属性独立地对分类器结果发生影响
    在这里插入图片描述

    • 伯努利模型
      即先验为伯努利分布的朴素贝叶斯,伯努利模型中,每个属性的取值都是布尔型的,即True和False,或者1和0。在文本分类中就是一个属性取值有没有在文档中出现,出现了就为1,没出现就为0,而不考虑出现的频数,在文本里面对应的词集模型
    • 多项式模型
      即先验为多项式分布的朴素贝叶斯,多项式模型中,每个属性的取值是频数,如果一个属性取值在文档中出现不止一次,则应该统计统计其频数,在文本里面对应词袋模型
    • 高斯模型
      即先验为高斯分布的朴素贝叶斯,当属性是连续变量的时候,运用多项式模型就会导致很多条件概率为0,此时即使做平滑,所得到的条件概率也难以描述真实情况,所以在处理连续的属性时,应采用高斯模型。连续变量离散化的过程是:利用样本的属性列计算出均值和方差,然后构造概率密度函数,将其每个样本值代入到概率密度函数中,得到概率值,该概率值可以反应各个值的相对可能性

    另外,由朴素贝叶斯分类器的表达式可以看出,朴素贝叶斯分类器的训练过程就是基于训练集D来估计类先验概率P(c),并为每个属性估计条件概率P(xi|c)
    在这里插入图片描述

    实例1

    西瓜数据集3.0分类

    对下图这个样本进行分类
    在这里插入图片描述
    在这里插入图片描述
    首先计算先验概率:
    在这里插入图片描述
    再计算每个属性的类条件概率
    对于离散型数据:
    在这里插入图片描述
    对于连续型数据:
    在这里插入图片描述
    最后根据类先验概率和类条件概率计算后验概率:
    在这里插入图片描述
    所以根据后验概率可以判定上图属性样本判别为“好瓜”类

    (2)拉普拉斯平滑

    拉普拉斯平滑:防止由于某一个类条件概率值为0,导致分类概率为0 的不合理情形
    拉普拉斯平滑
    条件概率对数化:防止小数相乘出现下溢的情况

    实例2

    苹果分类

    训练集有10个样本,现判断属性大小为大,颜色为青,形状为圆下,是否为好果
    在这里插入图片描述
    先分别计算类先验概率和类条件概率,其中计算类先验概率时,由于好果只有是和否两种情况,所以分母+2,计算类条件概率时,每个属性的取值情况也恰好为2,所以分母+2,最后计算后验概率,属于一般果的后验概率较大,所以把属性大小为大,颜色为青,形状为圆的样本判别为一般果

    实战一 西瓜数据集3.0分类

    import numpy as np
    from math import exp, sqrt, pi
    
    
    def getDataSet():
        dataSet = [
            ['青绿', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', 0.697, 0.460, 1],
            ['乌黑', '蜷缩', '沉闷', '清晰', '凹陷', '硬滑', 0.774, 0.376, 1],
            ['乌黑', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', 0.634, 0.264, 1],
            ['青绿', '蜷缩', '沉闷', '清晰', '凹陷', '硬滑', 0.608, 0.318, 1],
            ['浅白', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', 0.556, 0.215, 1],
            ['青绿', '稍蜷', '浊响', '清晰', '稍凹', '软粘', 0.403, 0.237, 1],
            ['乌黑', '稍蜷', '浊响', '稍糊', '稍凹', '软粘', 0.481, 0.149, 1],
            ['乌黑', '稍蜷', '浊响', '清晰', '稍凹', '硬滑', 0.437, 0.211, 1],
            ['乌黑', '稍蜷', '沉闷', '稍糊', '稍凹', '硬滑', 0.666, 0.091, 0],
            ['青绿', '硬挺', '清脆', '清晰', '平坦', '软粘', 0.243, 0.267, 0],
            ['浅白', '硬挺', '清脆', '模糊', '平坦', '硬滑', 0.245, 0.057, 0],
            ['浅白', '蜷缩', '浊响', '模糊', '平坦', '软粘', 0.343, 0.099, 0],
            ['青绿', '稍蜷', '浊响', '稍糊', '凹陷', '硬滑', 0.639, 0.161, 0],
            ['浅白', '稍蜷', '沉闷', '稍糊', '凹陷', '硬滑', 0.657, 0.198, 0],
            ['乌黑', '稍蜷', '浊响', '清晰', '稍凹', '软粘', 0.360, 0.370, 0],
            ['浅白', '蜷缩', '浊响', '模糊', '平坦', '硬滑', 0.593, 0.042, 0],
            ['青绿', '蜷缩', '沉闷', '稍糊', '稍凹', '硬滑', 0.719, 0.103, 0]
        ]
    
        features = ['色泽', '根蒂', '敲声', '纹理', '脐部', '触感', '密度', '含糖量']
    
        featureDic = {}
        for i in range(len(features)):
            featureList = [example[i] for example in dataSet]
            uniqueFeature = list(set(featureList))
            featureDic[features[i]] = uniqueFeature
    
        dataSet = np.array(dataSet)
        return dataSet, features, featureDic              # 返回数据集,特征词,特征元素
    
    
    def countProLap(dataSet, index, value, classLabel, N):        # 拉普拉斯平滑
        extrData = dataSet[dataSet[:, -1] == classLabel]
        count = 0
        for data in extrData:
            if data[index] == value:
                count += 1
        return (count + 1) / (float(len(extrData)) + N)
    
    
    def trainNB0(dataSet, features, featureDic):
        dict = {}                                          # 求类条件概率
        for feature in features:
            index = features.index(feature)
            dict[feature] = {}
            if feature != '密度' and feature != '含糖量':
                featIList = featureDic[feature]
                for value in featIList:
                    PisCond = countProLap(dataSet, index, value, '1', len(featIList))
                    pNoCond = countProLap(dataSet, index, value, '0', len(featIList))
                    dict[feature][value] = {}
                    dict[feature][value]["是"] = PisCond
                    dict[feature][value]["否"] = pNoCond
            else:
                for label in ['1', '0']:
                    dataExtra = dataSet[dataSet[:, -1] == label]
                    extr = dataExtra[:, index].astype("float64")
                    aver = extr.mean()
                    var = extr.var()
    
                    labelStr = ""
                    if label == '1':
                        labelStr = '是'
                    else:
                        labelStr = '否'
    
                    dict[feature][labelStr] = {}
                    dict[feature][labelStr]["平均值"] = aver
                    dict[feature][labelStr]["方差"] = var
    
        length = len(dataSet)                                 # 求类先验概率
        classLabels = dataSet[:, -1].tolist()
        dict["好瓜"] = {}
        dict["好瓜"]['是'] = (classLabels.count('1') + 1) / (float(length) + 2)
        dict["好瓜"]['否'] = (classLabels.count('0') + 1) / (float(length) + 2)
        return dict
    
    
    def NormDist(mean, var, xi):
        return exp(-((float(xi) - mean) ** 2) / (2 * var)) / (sqrt(2 * pi * var))
    
    
    def classifyNB(data, features, bayesDis):
        pGood = bayesDis['好瓜']['是']
        pBad = bayesDis['好瓜']['否']
        for feature in features:
            index = features.index(feature)
            if feature != '密度' and feature != '含糖量':
                pGood *= bayesDis[feature][data[index]]['是']
                pBad *= bayesDis[feature][data[index]]['否']
            else:
                pGood *= NormDist(bayesDis[feature]['是']['平均值'], bayesDis[feature]['是']['方差'], data[index])
                pBad *= NormDist(bayesDis[feature]['否']['平均值'], bayesDis[feature]['否']['方差'], data[index])
        retClass = ""
        if pGood > pBad:
            retClass = "好瓜"
        else:
            retClass = "坏瓜"
    
        return pGood, pBad, retClass
    
    
    def test_accuracy(dataSet, features, bayesDis):          # 精确率
        cnt = 0.0
        for data in dataSet:
            _, _, pre = classifyNB(data, features, bayesDis)
            if (pre == '好瓜' and data[-1] == '1') or (pre == '坏瓜' and data[-1] == '0'):
                cnt += 1
        return cnt / float(len(dataSet))
    
    
    def main():
        dataSet, features, featureDic = getDataSet()
        dic = trainNB0(dataSet, features,featureDic)
        for each in dic.items():
            print(each)
        p1, p0, pre = classifyNB(dataSet[0], features, dic)
        print('\n',dataSet[0])
        print(f"p1 = {p1}")
        print(f"p0 = {p0}")
        print(f"pre = {pre}")
        print("train data set accuracy = ", test_accuracy(dataSet, features, dic))
    
    
    if __name__ == '__main__':
        main()
    
    ('色泽', {'青绿': {'是': 0.36363636363636365, '否': 0.3333333333333333}, '浅白': {'是': 0.18181818181818182, '否': 0.4166666666666667}, '乌黑': {'是': 0.45454545454545453, '否': 0.25}})
    ('根蒂', {'蜷缩': {'是': 0.5454545454545454, '否': 0.3333333333333333}, '稍蜷': {'是': 0.36363636363636365, '否': 0.4166666666666667}, '硬挺': {'是': 0.09090909090909091, '否': 0.25}})
    ('敲声', {'浊响': {'是': 0.6363636363636364, '否': 0.4166666666666667}, '沉闷': {'是': 0.2727272727272727, '否': 0.3333333333333333}, '清脆': {'是': 0.09090909090909091, '否': 0.25}})
    ('纹理', {'模糊': {'是': 0.09090909090909091, '否': 0.3333333333333333}, '清晰': {'是': 0.7272727272727273, '否': 0.25}, '稍糊': {'是': 0.18181818181818182, '否': 0.4166666666666667}})
    ('脐部', {'稍凹': {'是': 0.36363636363636365, '否': 0.3333333333333333}, '凹陷': {'是': 0.5454545454545454, '否': 0.25}, '平坦': {'是': 0.09090909090909091, '否': 0.4166666666666667}})
    ('触感', {'硬滑': {'是': 0.7, '否': 0.6363636363636364}, '软粘': {'是': 0.3, '否': 0.36363636363636365}})
    ('密度', {'是': {'平均值': 0.57375, '方差': 0.014608437499999998}, '否': {'平均值': 0.49611111111111117, '方差': 0.03370254320987655}})
    ('含糖量', {'是': {'平均值': 0.27875, '方差': 0.008912437500000002}, '否': {'平均值': 0.1542222222222222, '方差': 0.010328617283950618}})
    ('好瓜', {'是': 0.47368421052631576, '否': 0.5263157894736842})
    
     ['青绿' '蜷缩' '浊响' '清晰' '凹陷' '硬滑' '0.697' '0.46' '1']
    p1 = 0.02180124640594357
    p0 = 4.915834021416594e-05
    pre = 好瓜
    train data set accuracy =  0.8235294117647058
    

    实战二 社区恶意留言分类

    import numpy as np
    
    
    def loadDataSet():                                                                    # 创建实验样本
        postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],          # 切分的词条
                     ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                     ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                     ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                     ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                     ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
        classVec = [0,1,0,1,0,1]                                                          # 类别标签向量,1代表侮辱性词汇,0代表不是
        return postingList,classVec
    
    
    # 将切分的实验样本词条整理成不重复的词条列表,也就是词汇表,用来将词条向量化
    def createVocabList(dataSet):
        vocabSet = set([])                                    # 创建一个空的不重复集合
        for document in dataSet:
            vocabSet = vocabSet | set(document)               # 取并集
        return list(vocabSet)
    
    
    def setOfWords2Vec(vocabList, inputSet):                  # 根据vocabList词汇表,将inputSet向量化,向量的每个元素为1或0
        returnVec = [0] * len(vocabList)                      # 创建一个其中所含元素都为0的向量
        for word in inputSet:                                 # 遍历每个词条
            if word in vocabList:                             # 如果词条存在于词汇表中,则置1
                returnVec[vocabList.index(word)] = 1
            else: print("the word: %s is not in my Vocabulary!" % word)
        return returnVec                                      # 返回文档向量
    
    
    def trainNB0(trainMatrix,trainCategory):                       # 朴素贝叶斯分类器训练函数
        numTrainDocs = len(trainMatrix)                            # 计算训练的文档数目
        numWords = len(trainMatrix[0])                             # 计算每篇文档的词条数
        pAbusive = sum(trainCategory)/float(numTrainDocs)          # 文档属于侮辱类的概率,相当于先验概率(P(侮辱类))
        p0Num = np.ones(numWords); p1Num = np.ones(numWords)     # 创建numpy.ones数组,拉普拉斯平滑(如果设置为zeros,那么其中一个概率为0,那么最后乘积也为0)
        p0Denom = 2.0; p1Denom = 2.0                               # 分母初始化为2
        for i in range(numTrainDocs):
            if trainCategory[i] == 1:                     # 统计属于侮辱类的条件概率所需的数据,即P(w0|1),P(w1|1),P(w2|1)···
                p1Num += trainMatrix[i]
                p1Denom += sum(trainMatrix[i])
            else:                                     # 统计属于非侮辱类的条件概率所需的数据,即P(w0|0),P(w1|0),P(w2|0)···
                p0Num += trainMatrix[i]
                p0Denom += sum(trainMatrix[i])
        p0Vect = np.log(p0Num/p0Denom)              # 条件概率对数化,防止下溢出
        p1Vect = np.log(p1Num/p1Denom)
        return p0Vect,p1Vect,pAbusive                 # 返回属于非侮辱类的条件概率数组,属于侮辱类的条件概率数组,文档属于侮辱类的概率
    
    
    def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):         # 朴素贝叶斯分类器分类函数
        p1 = sum(vec2Classify * p1Vec) + np.log(pClass1)             # 对应元素相乘 log(A*B)=log(A)+log(B)
        p0 = sum(vec2Classify * p0Vec) + np.log(1-pClass1)
        print('p0:',p0)
        print('p1:',p1)
        if p1 > p0:
            return 1
        else:
            return 0
    
    
    def testingNB():
        listOPosts,listClasses = loadDataSet()									# 创建实验样本
        myVocabList = createVocabList(listOPosts)								# 创建词汇表
        trainMat=[]
        for postinDoc in listOPosts:
            trainMat.append(setOfWords2Vec(myVocabList, postinDoc))				# 将实验样本向量化
    
        p0V,p1V,pAb = trainNB0(np.array(trainMat),np.array(listClasses))		# 训练朴素贝叶斯分类器
    
        testEntry = ['love', 'my', 'him','so']									# 测试样本1
        thisDoc = np.array(setOfWords2Vec(myVocabList, testEntry))				# 测试样本向量化
        if classifyNB(thisDoc,p0V,p1V,pAb):
            print(testEntry,'属于侮辱类')										    # 执行分类并打印分类结果
        else:
            print(testEntry,'属于非侮辱类')										# 执行分类并打印分类结果
    
        testEntry = ['stupid', 'garbage']										# 测试样本2
        thisDoc = np.array(setOfWords2Vec(myVocabList, testEntry))				# 测试样本向量化
        if classifyNB(thisDoc,p0V,p1V,pAb):
            print(testEntry,'属于侮辱类')										    # 执行分类并打印分类结果
        else:
            print(testEntry,'属于非侮辱类')										# 执行分类并打印分类结果
    
        testEntry = ['I','love','him']                              # 测试样本3
        thisDoc = np.array(setOfWords2Vec(myVocabList, testEntry))              # 测试样本向量化
        if classifyNB(thisDoc, p0V, p1V, pAb):
            print(testEntry, '属于侮辱类')                                        # 执行分类并打印分类结果
        else:
            print(testEntry, '属于非侮辱类')                                      # 执行分类并打印分类结果
    
    
    if __name__ == '__main__':
        testingNB()
    
    p0: -9.854332321737981
    p1: -12.178089750893692
    ['love', 'my', 'him', 'so'] 属于非侮辱类
    p0: -7.20934025660291
    p1: -4.702750514326955
    ['stupid', 'garbage'] 属于侮辱类
    p0: -7.982530144836391
    p1: -9.13356731317027
    ['I', 'love', 'him'] 属于非侮辱类
    

    实战三 垃圾邮件分类

    数据集参考文末链接

    import numpy as np
    import random
    import re
    
    
    def textParse(bigString):                                                   # 将字符串转换为字符列表
        # 这里使用\W 或者\W+ 都可以将字符数字串分割开,产生的空字符将会在后面的列表推导式中过滤掉
        listOfTokens = re.split(r'\W+', bigString)                              # 将特殊符号作为切分标志进行字符串切分,即非字母、非数字
        return [tok.lower() for tok in listOfTokens if len(tok) > 2]            # 除了单个字母,例如大写的I,其它单词变成小写
    
    
    def createVocabList(dataSet):
        vocabSet = set([])  					                         # 创建一个空的不重复集合
        for document in dataSet:
            vocabSet = vocabSet | set(document)                          # 取并集
        return list(vocabSet)
    
    
    def setOfWords2Vec(vocabList, inputSet):
        returnVec = [0] * len(vocabList)									# 创建一个其中所含元素都为0的向量
        for word in inputSet:												# 遍历每个词条
            if word in vocabList:											# 如果词条存在于词汇表中,则置1
                returnVec[vocabList.index(word)] = 1
            else: print("the word: %s is not in my Vocabulary!" % word)
        return returnVec													# 返回文档向量
    
    
    def bagOfWords2VecMN(vocabList, inputSet):
        returnVec = [0]*len(vocabList)										# 创建一个其中所含元素都为0的向量
        for word in inputSet:												# 遍历每个词条
            if word in vocabList:											# 如果词条存在于词汇表中,则计数加一
                returnVec[vocabList.index(word)] += 1
        return returnVec
    
    
    def trainNB0(trainMatrix,trainCategory):
        numTrainDocs = len(trainMatrix)                         # 计算训练集的数目
        numWords = len(trainMatrix[0])							# 计算每封邮件的词条数
        pAbusive = sum(trainCategory)/float(numTrainDocs)		# 属于垃圾邮件的概率
        p0Num = np.ones(numWords); p1Num = np.ones(numWords)	# 创建numpy.ones数组,词条出现数初始化为1,拉普拉斯平滑
        p0Denom = 2.0; p1Denom = 2.0                        	# 分母初始化为2,拉普拉斯平滑
        for i in range(numTrainDocs):
            if trainCategory[i] == 1:							# 统计属于垃圾类的条件概率所需的数据,即P(w0|1),P(w1|1),P(w2|1)···
                p1Num += trainMatrix[i]
                p1Denom += sum(trainMatrix[i])
            else:												# 统计属于非垃圾类的条件概率所需的数据,即P(w0|0),P(w1|0),P(w2|0)···
                p0Num += trainMatrix[i]
                p0Denom += sum(trainMatrix[i])
        p0Vect = np.log(p0Num/p0Denom)
        p1Vect = np.log(p1Num/p1Denom)							# 取对数,防止下溢出
        return p0Vect,p1Vect,pAbusive							# 返回属于非垃圾类的条件概率数组,属于垃圾类的条件概率数组,邮件属于垃圾类的概率
    
    
    def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
        p1 = sum(vec2Classify * p1Vec) + np.log(pClass1)    	# 对应元素相乘。logA * B = logA + logB,所以这里加上log(pClass1)
        p0 = sum(vec2Classify * p0Vec) + np.log(1.0 - pClass1)
        if p1 > p0:
            return 1
        else:
            return 0
    
    
    def spamTest():
        docList = []; classList = []
        for i in range(1, 26):                                                  # 遍历25个txt文件
            wordList = textParse(open('spam/%d.txt' % i, 'r').read())     # 读取每个垃圾邮件,并字符串转换成字符串列表
            docList.append(wordList)
            classList.append(1)                                                 # 标记垃圾邮件,1表示垃圾文件
            wordList = textParse(open('ham/%d.txt' % i, 'r').read())      # 读取每个非垃圾邮件,并字符串转换成字符串列表
            docList.append(wordList)
            classList.append(0)                                                 # 标记非垃圾邮件,0表示非垃圾文件
    
        vocabList = createVocabList(docList)                                 # 创建词汇表,不重复
    
        errorrate = 0
    
        for i in range(10):                                                         # 迭代10次求平均错误率
            trainingSet = list(range(50)); testSet = []                             # 创建存储训练集的索引值的列表和测试集的索引值的列表
            for i in range(10):                                                     # 从50个邮件中,随机挑选出40个作为训练集,10个做测试集
                randIndex = int(random.uniform(0, len(trainingSet)))                # 随机选取索索引值
                testSet.append(trainingSet[randIndex])                              # 添加测试集的索引值
                del(trainingSet[randIndex])                                         # 在训练集列表中删除添加到测试集的索引值
    
            trainMat = []; trainClasses = []                                        # 创建训练集矩阵和训练集类别标签系向量
            for docIndex in trainingSet:                                            # 遍历训练集
                trainMat.append(setOfWords2Vec(vocabList, docList[docIndex]))       # 将生成的词集模型添加到训练矩阵中
                trainClasses.append(classList[docIndex])                            # 将类别添加到训练集类别标签系向量中
    
            p0V, p1V, pSpam = trainNB0(np.array(trainMat), np.array(trainClasses))  # 训练朴素贝叶斯模型
    
            errorCount = 0                                                          # 错误分类计数
            for docIndex in testSet:                                                # 遍历测试集
                wordVector = setOfWords2Vec(vocabList, docList[docIndex])           # 测试集的词集模型
                if classifyNB(np.array(wordVector), p0V, p1V, pSpam) != classList[docIndex]:    # 如果分类错误
                    errorCount += 1                                                 # 错误计数加1
                    print("分类错误的测试集:",docList[docIndex],end=" ")
                    if classList[docIndex]:
                        print(docList[docIndex], '属于正常文件')
                    else:
                        print(docList[docIndex], '属于垃圾文件')
                elif classifyNB(np.array(wordVector), p0V, p1V, pSpam):
                    print(docList[docIndex], '属于垃圾文件')  # 执行分类并打印分类结果
                else:
                    print(docList[docIndex], '属于正常文件')
            print('错误率:%.2f%%' % (float(errorCount) / len(testSet) * 100))
            errorrate += float(errorCount) / len(testSet) * 100
        print('10次总的错误率为:%.2f%%' % errorrate)
        print('平均错误率为:%.2f%%' % (errorrate / 10))
    
    
    if __name__ == '__main__':
        spamTest()
    
    ['peter', 'the', 'hotels', 'are', 'the', 'ones', 'that', 'rent', 'out', 'the', 'tent', 'they', 'are', 'all', 'lined', 'the', 'hotel', 'grounds', 'much', 'for', 'being', 'one', 'with', 'nature', 'more', 'like', 'being', 'one', 'with', 'couple', 'dozen', 'tour', 'groups', 'and', 'nature', 'have', 'about', '100m', 'pictures', 'from', 'that', 'trip', 'can', 'through', 'them', 'and', 'get', 'you', 'jpgs', 'favorite', 'scenic', 'pictures', 'where', 'are', 'you', 'and', 'jocelyn', 'now', 'new', 'york', 'will', 'you', 'come', 'tokyo', 'for', 'chinese', 'new', 'year', 'perhaps', 'see', 'the', 'two', 'you', 'then', 'will', 'thailand', 'for', 'winter', 'holiday', 'see', 'mom', 'take', 'care'] 属于正常文件
    ['that', 'cold', 'there', 'going', 'retirement', 'party', 'are', 'the', 'leaves', 'changing', 'color'] 属于正常文件
    ['bargains', 'here', 'buy', 'phentermin', 'buy', 'genuine', 'phentermin', 'low', 'cost', 'visa', 'accepted', '130', '219', '292', '120', '366', '180', '513'] 属于垃圾文件
    ['percocet', '625', 'withoutprescription', 'tabs', '225', 'percocet', 'narcotic', 'analgesic', 'used', 'treat', 'moderate', 'moderately', 'severepain', 'top', 'quality', 'express', 'shipping', '100', 'safe', 'discreet', 'private', 'buy', 'cheap', 'percocet', 'online'] 属于垃圾文件
    ['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe', 'the', 'proven', 'naturalpenisenhancement', 'that', 'works', '100', 'moneyback', 'guaranteeed'] 属于垃圾文件
    ['there', 'was', 'guy', 'the', 'gas', 'station', 'who', 'told', 'that', 'knew', 'mandarin', 'and', 'python', 'could', 'get', 'job', 'with', 'the', 'fbi'] 属于正常文件
    ['yay', 'you', 'both', 'doing', 'fine', 'working', 'mba', 'design', 'strategy', 'cca', 'top', 'art', 'school', 'new', 'program', 'focusing', 'more', 'right', 'brained', 'creative', 'and', 'strategic', 'approach', 'management', 'the', 'way', 'done', 'today'] 属于正常文件
    ['percocet', '625', 'withoutprescription', 'tabs', '225', 'percocet', 'narcotic', 'analgesic', 'used', 'treat', 'moderate', 'moderately', 'severepain', 'top', 'quality', 'express', 'shipping', '100', 'safe', 'discreet', 'private', 'buy', 'cheap', 'percocet', 'online'] 属于垃圾文件
    ['bargains', 'here', 'buy', 'phentermin', 'buy', 'genuine', 'phentermin', 'low', 'cost', 'visa', 'accepted', '130', '219', '292', '120', '366', '180', '513'] 属于垃圾文件
    ['hydrocodone', 'vicodin', 'brand', 'watson', 'vicodin', '750', '195', '120', '570', 'brand', 'watson', '750', '195', '120', '570', 'brand', 'watson', '325', '199', '120', '588', 'noprescription', 'required', 'free', 'express', 'fedex', 'days', 'delivery', 'for', 'over', '200', 'order', 'major', 'credit', 'cards', 'check'] 属于垃圾文件
    错误率:0.00%
    ['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe'] 属于垃圾文件
    ['thanks', 'peter', 'definitely', 'check', 'this', 'how', 'your', 'book', 'going', 'heard', 'chapter', 'came', 'and', 'was', 'good', 'shape', 'hope', 'you', 'are', 'doing', 'well', 'cheers', 'troy'] 属于正常文件
    ['get', 'off', 'online', 'watchesstore', 'discount', 'watches', 'for', 'all', 'famous', 'brands', 'watches', 'arolexbvlgari', 'dior', 'hermes', 'oris', 'cartier', 'and', 'more', 'brands', 'louis', 'vuitton', 'bags', 'wallets', 'gucci', 'bags', 'tiffany', 'jewerly', 'enjoy', 'full', 'year', 'warranty', 'shipment', 'via', 'reputable', 'courier', 'fedex', 'ups', 'dhl', 'and', 'ems', 'speedpost', 'you', 'will', '100', 'recieve', 'your', 'order', 'save', 'off', 'quality', 'watches'] 属于垃圾文件
    ['arvind', 'thirumalai', 'commented', 'your', 'status', 'arvind', 'wrote', 'you', 'know', 'reply', 'this', 'email', 'comment', 'this', 'status'] 属于正常文件
    ['there', 'was', 'guy', 'the', 'gas', 'station', 'who', 'told', 'that', 'knew', 'mandarin', 'and', 'python', 'could', 'get', 'job', 'with', 'the', 'fbi'] 属于正常文件
    ['been', 'working', 'running', 'website', 'using', 'jquery', 'and', 'the', 'jqplot', 'plugin', 'not', 'too', 'far', 'away', 'from', 'having', 'prototype', 'launch', 'you', 'used', 'jqplot', 'right', 'not', 'think', 'you', 'would', 'like'] 属于正常文件
    ['oem', 'adobe', 'microsoft', 'softwares', 'fast', 'order', 'and', 'download', 'microsoft', 'office', 'professional', 'plus', '2007', '2010', '129', 'microsoft', 'windows', 'ultimate', '119', 'adobe', 'photoshop', 'cs5', 'extended', 'adobe', 'acrobat', 'pro', 'extended', 'windows', 'professional', 'thousand', 'more', 'titles'] 属于垃圾文件
    ['get', 'off', 'online', 'watchesstore', 'discount', 'watches', 'for', 'all', 'famous', 'brands', 'watches', 'arolexbvlgari', 'dior', 'hermes', 'oris', 'cartier', 'and', 'more', 'brands', 'louis', 'vuitton', 'bags', 'wallets', 'gucci', 'bags', 'tiffany', 'jewerly', 'enjoy', 'full', 'year', 'warranty', 'shipment', 'via', 'reputable', 'courier', 'fedex', 'ups', 'dhl', 'and', 'ems', 'speedpost', 'you', 'will', '100', 'recieve', 'your', 'order'] 属于垃圾文件
    ['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe', 'the', 'proven', 'naturalpenisenhancement', 'that', 'works', '100', 'moneyback', 'guaranteeed'] 属于垃圾文件
    ['peter', 'the', 'hotels', 'are', 'the', 'ones', 'that', 'rent', 'out', 'the', 'tent', 'they', 'are', 'all', 'lined', 'the', 'hotel', 'grounds', 'much', 'for', 'being', 'one', 'with', 'nature', 'more', 'like', 'being', 'one', 'with', 'couple', 'dozen', 'tour', 'groups', 'and', 'nature', 'have', 'about', '100m', 'pictures', 'from', 'that', 'trip', 'can', 'through', 'them', 'and', 'get', 'you', 'jpgs', 'favorite', 'scenic', 'pictures', 'where', 'are', 'you', 'and', 'jocelyn', 'now', 'new', 'york', 'will', 'you', 'come', 'tokyo', 'for', 'chinese', 'new', 'year', 'perhaps', 'see', 'the', 'two', 'you', 'then', 'will', 'thailand', 'for', 'winter', 'holiday', 'see', 'mom', 'take', 'care'] 属于正常文件
    错误率:0.00%
    ['this', 'mail', 'was', 'sent', 'from', 'notification', 'only', 'address', 'that', 'cannot', 'accept', 'incoming', 'mail', 'please', 'not', 'reply', 'this', 'message', 'thank', 'you', 'for', 'your', 'online', 'reservation', 'the', 'store', 'you', 'selected', 'has', 'located', 'the', 'item', 'you', 'requested', 'and', 'has', 'placed', 'hold', 'your', 'name', 'please', 'note', 'that', 'all', 'items', 'are', 'held', 'for', 'day', 'please', 'note', 'store', 'prices', 'may', 'differ', 'from', 'those', 'online', 'you', 'have', 'questions', 'need', 'assistance', 'with', 'your', 'reservation', 'please', 'contact', 'the', 'store', 'the', 'phone', 'number', 'listed', 'below', 'you', 'can', 'also', 'access', 'store', 'information', 'such', 'store', 'hours', 'and', 'location', 'the', 'web', 'http', 'www', 'borders', 'com', 'online', 'store', 'storedetailview_98'] 属于正常文件
    分类错误的测试集: ['home', 'based', 'business', 'opportunity', 'knocking', 'your', 'door', 'don抰', 'rude', 'and', 'let', 'this', 'chance', 'you', 'can', 'earn', 'great', 'income', 'and', 'find', 'your', 'financial', 'life', 'transformed', 'learn', 'more', 'here', 'your', 'success', 'work', 'from', 'home', 'finder', 'experts'] ['home', 'based', 'business', 'opportunity', 'knocking', 'your', 'door', 'don抰', 'rude', 'and', 'let', 'this', 'chance', 'you', 'can', 'earn', 'great', 'income', 'and', 'find', 'your', 'financial', 'life', 'transformed', 'learn', 'more', 'here', 'your', 'success', 'work', 'from', 'home', 'finder', 'experts'] 属于正常文件
    ['there', 'was', 'guy', 'the', 'gas', 'station', 'who', 'told', 'that', 'knew', 'mandarin', 'and', 'python', 'could', 'get', 'job', 'with', 'the', 'fbi'] 属于正常文件
    ['arvind', 'thirumalai', 'commented', 'your', 'status', 'arvind', 'wrote', 'you', 'know', 'reply', 'this', 'email', 'comment', 'this', 'status'] 属于正常文件
    ['get', 'off', 'online', 'watchesstore', 'discount', 'watches', 'for', 'all', 'famous', 'brands', 'watches', 'arolexbvlgari', 'dior', 'hermes', 'oris', 'cartier', 'and', 'more', 'brands', 'louis', 'vuitton', 'bags', 'wallets', 'gucci', 'bags', 'tiffany', 'jewerly', 'enjoy', 'full', 'year', 'warranty', 'shipment', 'via', 'reputable', 'courier', 'fedex', 'ups', 'dhl', 'and', 'ems', 'speedpost', 'you', 'will', '100', 'recieve', 'your', 'order'] 属于垃圾文件
    ['linkedin', 'kerry', 'haloney', 'requested', 'add', 'you', 'connection', 'linkedin', 'peter', 'like', 'add', 'you', 'professional', 'network', 'linkedin', 'kerry', 'haloney'] 属于正常文件
    ['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe'] 属于垃圾文件
    ['that', 'cold', 'there', 'going', 'retirement', 'party', 'are', 'the', 'leaves', 'changing', 'color'] 属于正常文件
    ['codeine', '15mg', 'for', '203', 'visa', 'only', 'codeine', 'methylmorphine', 'narcotic', 'opioid', 'pain', 'reliever', 'have', '15mg', '30mg', 'pills', '15mg', 'for', '203', '15mg', 'for', '385', '15mg', 'for', '562', 'visa', 'only'] 属于垃圾文件
    ['saw', 'this', 'the', 'way', 'the', 'coast', 'thought', 'might', 'like', 'hangzhou', 'huge', 'one', 'day', 'wasn', 'enough', 'but', 'got', 'glimpse', 'went', 'inside', 'the', 'china', 'pavilion', 'expo', 'pretty', 'interesting', 'each', 'province', 'has', 'exhibit'] 属于正常文件
    错误率:10.00%
    ['ordercializviagra', 'online', 'save', '0nline', 'pharmacy', 'noprescription', 'required', 'buy', 'canadian', 'drugs', 'wholesale', 'prices', 'and', 'save', 'fda', 'approved', 'drugs', 'superb', 'quality', 'drugs', 'only', 'accept', 'all', 'major', 'credit', 'cards'] 属于垃圾文件
    ['thanks', 'peter', 'definitely', 'check', 'this', 'how', 'your', 'book', 'going', 'heard', 'chapter', 'came', 'and', 'was', 'good', 'shape', 'hope', 'you', 'are', 'doing', 'well', 'cheers', 'troy'] 属于正常文件
    ['peter', 'sure', 'thing', 'sounds', 'good', 'let', 'know', 'what', 'time', 'would', 'good', 'for', 'you', 'will', 'come', 'prepared', 'with', 'some', 'ideas', 'and', 'can', 'from', 'there', 'regards', 'vivek'] 属于正常文件
    ['scifinance', 'now', 'automatically', 'generates', 'gpu', 'enabled', 'pricing', 'risk', 'model', 'source', 'code', 'that', 'runs', '300x', 'faster', 'than', 'serial', 'code', 'using', 'new', 'nvidia', 'fermi', 'class', 'tesla', 'series', 'gpu', 'scifinance', 'derivatives', 'pricing', 'and', 'risk', 'model', 'development', 'tool', 'that', 'automatically', 'generates', 'and', 'gpu', 'enabled', 'source', 'code', 'from', 'concise', 'high', 'level', 'model', 'specifications', 'parallel', 'computing', 'cuda', 'programming', 'expertise', 'required', 'scifinance', 'automatic', 'gpu', 'enabled', 'monte', 'carlo', 'pricing', 'model', 'source', 'code', 'generation', 'capabilities', 'have', 'been', 'significantly', 'extended', 'the', 'latest', 'release', 'this', 'includes'] 属于正常文件
    ['been', 'working', 'running', 'website', 'using', 'jquery', 'and', 'the', 'jqplot', 'plugin', 'not', 'too', 'far', 'away', 'from', 'having', 'prototype', 'launch', 'you', 'used', 'jqplot', 'right', 'not', 'think', 'you', 'would', 'like'] 属于正常文件
    ['bargains', 'here', 'buy', 'phentermin', 'buy', 'genuine', 'phentermin', 'low', 'cost', 'visa', 'accepted', '130', '219', '292', '120', '366', '180', '513'] 属于垃圾文件
    ['benoit', 'mandelbrot', '1924', '2010', 'benoit', 'mandelbrot', '1924', '2010', 'wilmott', 'team', 'benoit', 'mandelbrot', 'the', 'mathematician', 'the', 'father', 'fractal', 'mathematics', 'and', 'advocate', 'more', 'sophisticated', 'modelling', 'quantitative', 'finance', 'died', '14th', 'october', '2010', 'aged', 'wilmott', 'magazine', 'has', 'often', 'featured', 'mandelbrot', 'his', 'ideas', 'and', 'the', 'work', 'others', 'inspired', 'his', 'fundamental', 'insights', 'you', 'must', 'logged', 'view', 'these', 'articles', 'from', 'past', 'issues', 'wilmott', 'magazine'] 属于正常文件
    ['saw', 'this', 'the', 'way', 'the', 'coast', 'thought', 'might', 'like', 'hangzhou', 'huge', 'one', 'day', 'wasn', 'enough', 'but', 'got', 'glimpse', 'went', 'inside', 'the', 'china', 'pavilion', 'expo', 'pretty', 'interesting', 'each', 'province', 'has', 'exhibit'] 属于正常文件
    ['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe', 'the', 'proven', 'naturalpenisenhancement', 'that', 'works', '100', 'moneyback', 'guaranteeed'] 属于垃圾文件
    ['ryan', 'whybrew', 'commented', 'your', 'status', 'ryan', 'wrote', 'turd', 'ferguson', 'butt', 'horn'] 属于正常文件
    错误率:0.00%
    ['will', 'there', 'the', 'latest'] 属于正常文件
    ['thought', 'about', 'this', 'and', 'think', 'possible', 'should', 'get', 'another', 'lunch', 'have', 'car', 'now', 'and', 'could', 'come', 'pick', 'you', 'this', 'time', 'does', 'this', 'wednesday', 'work', 'can', 'have', 'signed', 'copy', 'you', 'book'] 属于正常文件
    ['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe'] 属于垃圾文件
    ['there', 'was', 'guy', 'the', 'gas', 'station', 'who', 'told', 'that', 'knew', 'mandarin', 'and', 'python', 'could', 'get', 'job', 'with', 'the', 'fbi'] 属于正常文件
    ['zach', 'hamm', 'commented', 'your', 'status', 'zach', 'wrote', 'doggy', 'style', 'enough', 'said', 'thank', 'you', 'good', 'night'] 属于正常文件
    ['peter', 'with', 'jose', 'out', 'town', 'you', 'want', 'meet', 'once', 'while', 'keep', 'things', 'going', 'and', 'some', 'interesting', 'stuff', 'let', 'know', 'eugene'] 属于正常文件
    ['saw', 'this', 'the', 'way', 'the', 'coast', 'thought', 'might', 'like', 'hangzhou', 'huge', 'one', 'day', 'wasn', 'enough', 'but', 'got', 'glimpse', 'went', 'inside', 'the', 'china', 'pavilion', 'expo', 'pretty', 'interesting', 'each', 'province', 'has', 'exhibit'] 属于正常文件
    ['codeine', '15mg', 'for', '203', 'visa', 'only', 'codeine', 'methylmorphine', 'narcotic', 'opioid', 'pain', 'reliever', 'have', '15mg', '30mg', 'pills', '15mg', 'for', '203', '15mg', 'for', '385', '15mg', 'for', '562', 'visa', 'only'] 属于垃圾文件
    ['bargains', 'here', 'buy', 'phentermin', 'buy', 'genuine', 'phentermin', 'low', 'cost', 'visa', 'accepted', '130', '219', '292', '120', '366', '180', '513'] 属于垃圾文件
    ['buyviagra', '25mg', '50mg', '100mg', 'brandviagra', 'femaleviagra', 'from', 'per', 'pill', 'viagranoprescription', 'needed', 'from', 'certified', 'canadian', 'pharmacy', 'buy', 'here', 'accept', 'visa', 'amex', 'check', 'worldwide', 'delivery'] 属于垃圾文件
    错误率:0.00%
    ['thought', 'about', 'this', 'and', 'think', 'possible', 'should', 'get', 'another', 'lunch', 'have', 'car', 'now', 'and', 'could', 'come', 'pick', 'you', 'this', 'time', 'does', 'this', 'wednesday', 'work', 'can', 'have', 'signed', 'copy', 'you', 'book'] 属于正常文件
    分类错误的测试集: ['yay', 'you', 'both', 'doing', 'fine', 'working', 'mba', 'design', 'strategy', 'cca', 'top', 'art', 'school', 'new', 'program', 'focusing', 'more', 'right', 'brained', 'creative', 'and', 'strategic', 'approach', 'management', 'the', 'way', 'done', 'today'] ['yay', 'you', 'both', 'doing', 'fine', 'working', 'mba', 'design', 'strategy', 'cca', 'top', 'art', 'school', 'new', 'program', 'focusing', 'more', 'right', 'brained', 'creative', 'and', 'strategic', 'approach', 'management', 'the', 'way', 'done', 'today'] 属于垃圾文件
    ['peter', 'sure', 'thing', 'sounds', 'good', 'let', 'know', 'what', 'time', 'would', 'good', 'for', 'you', 'will', 'come', 'prepared', 'with', 'some', 'ideas', 'and', 'can', 'from', 'there', 'regards', 'vivek'] 属于正常文件
    ['linkedin', 'kerry', 'haloney', 'requested', 'add', 'you', 'connection', 'linkedin', 'peter', 'like', 'add', 'you', 'professional', 'network', 'linkedin', 'kerry', 'haloney'] 属于正常文件
    ['been', 'working', 'running', 'website', 'using', 'jquery', 'and', 'the', 'jqplot', 'plugin', 'not', 'too', 'far', 'away', 'from', 'having', 'prototype', 'launch', 'you', 'used', 'jqplot', 'right', 'not', 'think', 'you', 'would', 'like'] 属于正常文件
    ['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe', 'the', 'proven', 'naturalpenisenhancement', 'that', 'works', '100', 'moneyback', 'guaranteeed'] 属于垃圾文件
    ['codeine', '15mg', 'for', '203', 'visa', 'only', 'codeine', 'methylmorphine', 'narcotic', 'opioid', 'pain', 'reliever', 'have', '15mg', '30mg', 'pills', '15mg', 'for', '203', '15mg', 'for', '385', '15mg', 'for', '562', 'visa', 'only'] 属于垃圾文件
    分类错误的测试集: ['home', 'based', 'business', 'opportunity', 'knocking', 'your', 'door', 'don抰', 'rude', 'and', 'let', 'this', 'chance', 'you', 'can', 'earn', 'great', 'income', 'and', 'find', 'your', 'financial', 'life', 'transformed', 'learn', 'more', 'here', 'your', 'success', 'work', 'from', 'home', 'finder', 'experts'] ['home', 'based', 'business', 'opportunity', 'knocking', 'your', 'door', 'don抰', 'rude', 'and', 'let', 'this', 'chance', 'you', 'can', 'earn', 'great', 'income', 'and', 'find', 'your', 'financial', 'life', 'transformed', 'learn', 'more', 'here', 'your', 'success', 'work', 'from', 'home', 'finder', 'experts'] 属于正常文件
    ['hydrocodone', 'vicodin', 'brand', 'watson', 'vicodin', '750', '195', '120', '570', 'brand', 'watson', '750', '195', '120', '570', 'brand', 'watson', '325', '199', '120', '588', 'noprescription', 'required', 'free', 'express', 'fedex', 'days', 'delivery', 'for', 'over', '200', 'order', 'major', 'credit', 'cards', 'check'] 属于垃圾文件
    ['oem', 'adobe', 'microsoft', 'softwares', 'fast', 'order', 'and', 'download', 'microsoft', 'office', 'professional', 'plus', '2007', '2010', '129', 'microsoft', 'windows', 'ultimate', '119', 'adobe', 'photoshop', 'cs5', 'extended', 'adobe', 'acrobat', 'pro', 'extended', 'windows', 'professional', 'thousand', 'more', 'titles'] 属于垃圾文件
    错误率:20.00%
    ['ryan', 'whybrew', 'commented', 'your', 'status', 'ryan', 'wrote', 'turd', 'ferguson', 'butt', 'horn'] 属于正常文件
    ['bargains', 'here', 'buy', 'phentermin', 'buy', 'genuine', 'phentermin', 'low', 'cost', 'visa', 'accepted', '130', '219', '292', '120', '366', '180', '513'] 属于垃圾文件
    ['peter', 'sure', 'thing', 'sounds', 'good', 'let', 'know', 'what', 'time', 'would', 'good', 'for', 'you', 'will', 'come', 'prepared', 'with', 'some', 'ideas', 'and', 'can', 'from', 'there', 'regards', 'vivek'] 属于正常文件
    ['oem', 'adobe', 'microsoft', 'softwares', 'fast', 'order', 'and', 'download', 'microsoft', 'office', 'professional', 'plus', '2007', '2010', '129', 'microsoft', 'windows', 'ultimate', '119', 'adobe', 'photoshop', 'cs5', 'extended', 'adobe', 'acrobat', 'pro', 'extended', 'windows', 'professional', 'thousand', 'more', 'titles'] 属于垃圾文件
    ['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe'] 属于垃圾文件
    ['buyviagra', '25mg', '50mg', '100mg', 'brandviagra', 'femaleviagra', 'from', 'per', 'pill', 'viagranoprescription', 'needed', 'from', 'certified', 'canadian', 'pharmacy', 'buy', 'here', 'accept', 'visa', 'amex', 'check', 'worldwide', 'delivery'] 属于垃圾文件
    ['codeine', '15mg', 'for', '203', 'visa', 'only', 'codeine', 'methylmorphine', 'narcotic', 'opioid', 'pain', 'reliever', 'have', '15mg', '30mg', 'pills', '15mg', 'for', '203', '15mg', 'for', '385', '15mg', 'for', '562', 'visa', 'only'] 属于垃圾文件
    ['buy', 'ambiem', 'zolpidem', '5mg', '10mg', 'pill', 'pills', '129', 'pills', '199', '180', 'pills', '430', 'pills', '138', '120', 'pills', '322'] 属于垃圾文件
    ['ordercializviagra', 'online', 'save', '0nline', 'pharmacy', 'noprescription', 'required', 'buy', 'canadian', 'drugs', 'wholesale', 'prices', 'and', 'save', 'fda', 'approved', 'drugs', 'superb', 'quality', 'drugs', 'only', 'accept', 'all', 'major', 'credit', 'cards'] 属于垃圾文件
    ['peter', 'these', 'are', 'the', 'only', 'good', 'scenic', 'ones', 'and', 'too', 'bad', 'there', 'was', 'girl', 'back', 'one', 'them', 'just', 'try', 'enjoy', 'the', 'blue', 'sky'] 属于正常文件
    错误率:0.00%
    ['codeine', 'the', 'most', 'competitive', 'price', 'net', 'codeine', 'wilson', '30mg', '156', 'codeine', 'wilson', '30mg', '291', 'freeviagra', 'pills', 'codeine', 'wilson', '30mg', '396', 'freeviagra', 'pills', 'codeine', 'wilson', '30mg', '120', '492', 'freeviagra', 'pills'] 属于垃圾文件
    分类错误的测试集: ['home', 'based', 'business', 'opportunity', 'knocking', 'your', 'door', 'don抰', 'rude', 'and', 'let', 'this', 'chance', 'you', 'can', 'earn', 'great', 'income', 'and', 'find', 'your', 'financial', 'life', 'transformed', 'learn', 'more', 'here', 'your', 'success', 'work', 'from', 'home', 'finder', 'experts'] ['home', 'based', 'business', 'opportunity', 'knocking', 'your', 'door', 'don抰', 'rude', 'and', 'let', 'this', 'chance', 'you', 'can', 'earn', 'great', 'income', 'and', 'find', 'your', 'financial', 'life', 'transformed', 'learn', 'more', 'here', 'your', 'success', 'work', 'from', 'home', 'finder', 'experts'] 属于正常文件
    ['scifinance', 'now', 'automatically', 'generates', 'gpu', 'enabled', 'pricing', 'risk', 'model', 'source', 'code', 'that', 'runs', '300x', 'faster', 'than', 'serial', 'code', 'using', 'new', 'nvidia', 'fermi', 'class', 'tesla', 'series', 'gpu', 'scifinance', 'derivatives', 'pricing', 'and', 'risk', 'model', 'development', 'tool', 'that', 'automatically', 'generates', 'and', 'gpu', 'enabled', 'source', 'code', 'from', 'concise', 'high', 'level', 'model', 'specifications', 'parallel', 'computing', 'cuda', 'programming', 'expertise', 'required', 'scifinance', 'automatic', 'gpu', 'enabled', 'monte', 'carlo', 'pricing', 'model', 'source', 'code', 'generation', 'capabilities', 'have', 'been', 'significantly', 'extended', 'the', 'latest', 'release', 'this', 'includes'] 属于正常文件
    ['peter', 'sure', 'thing', 'sounds', 'good', 'let', 'know', 'what', 'time', 'would', 'good', 'for', 'you', 'will', 'come', 'prepared', 'with', 'some', 'ideas', 'and', 'can', 'from', 'there', 'regards', 'vivek'] 属于正常文件
    ['ryan', 'whybrew', 'commented', 'your', 'status', 'ryan', 'wrote', 'turd', 'ferguson', 'butt', 'horn'] 属于正常文件
    ['there', 'was', 'guy', 'the', 'gas', 'station', 'who', 'told', 'that', 'knew', 'mandarin', 'and', 'python', 'could', 'get', 'job', 'with', 'the', 'fbi'] 属于正常文件
    ['thought', 'about', 'this', 'and', 'think', 'possible', 'should', 'get', 'another', 'lunch', 'have', 'car', 'now', 'and', 'could', 'come', 'pick', 'you', 'this', 'time', 'does', 'this', 'wednesday', 'work', 'can', 'have', 'signed', 'copy', 'you', 'book'] 属于正常文件
    ['peter', 'these', 'are', 'the', 'only', 'good', 'scenic', 'ones', 'and', 'too', 'bad', 'there', 'was', 'girl', 'back', 'one', 'them', 'just', 'try', 'enjoy', 'the', 'blue', 'sky'] 属于正常文件
    ['that', 'cold', 'there', 'going', 'retirement', 'party', 'are', 'the', 'leaves', 'changing', 'color'] 属于正常文件
    ['percocet', '625', 'withoutprescription', 'tabs', '225', 'percocet', 'narcotic', 'analgesic', 'used', 'treat', 'moderate', 'moderately', 'severepain', 'top', 'quality', 'express', 'shipping', '100', 'safe', 'discreet', 'private', 'buy', 'cheap', 'percocet', 'online'] 属于垃圾文件
    错误率:10.00%
    ['what', 'going', 'there', 'talked', 'john', 'email', 'talked', 'about', 'some', 'computer', 'stuff', 'that', 'went', 'bike', 'riding', 'the', 'rain', 'was', 'not', 'that', 'cold', 'went', 'the', 'museum', 'yesterday', 'was', 'get', 'and', 'they', 'had', 'free', 'food', 'the', 'same', 'time', 'was', 'giants', 'game', 'when', 'got', 'done', 'had', 'take', 'the', 'train', 'with', 'all', 'the', 'giants', 'fans', 'they', 'are', 'drunk'] 属于正常文件
    分类错误的测试集: ['yay', 'you', 'both', 'doing', 'fine', 'working', 'mba', 'design', 'strategy', 'cca', 'top', 'art', 'school', 'new', 'program', 'focusing', 'more', 'right', 'brained', 'creative', 'and', 'strategic', 'approach', 'management', 'the', 'way', 'done', 'today'] ['yay', 'you', 'both', 'doing', 'fine', 'working', 'mba', 'design', 'strategy', 'cca', 'top', 'art', 'school', 'new', 'program', 'focusing', 'more', 'right', 'brained', 'creative', 'and', 'strategic', 'approach', 'management', 'the', 'way', 'done', 'today'] 属于垃圾文件
    ['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe'] 属于垃圾文件
    ['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe'] 属于垃圾文件
    ['arvind', 'thirumalai', 'commented', 'your', 'status', 'arvind', 'wrote', 'you', 'know', 'reply', 'this', 'email', 'comment', 'this', 'status'] 属于正常文件
    ['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe', 'the', 'proven', 'naturalpenisenhancement', 'that', 'works', '100', 'moneyback', 'guaranteeed'] 属于垃圾文件
    ['ordercializviagra', 'online', 'save', '0nline', 'pharmacy', 'noprescription', 'required', 'buy', 'canadian', 'drugs', 'wholesale', 'prices', 'and', 'save', 'fda', 'approved', 'drugs', 'superb', 'quality', 'drugs', 'only', 'accept', 'all', 'major', 'credit', 'cards'] 属于垃圾文件
    ['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe', 'the', 'proven', 'naturalpenisenhancement', 'that', 'works', '100', 'moneyback', 'guaranteeed'] 属于垃圾文件
    ['get', 'off', 'online', 'watchesstore', 'discount', 'watches', 'for', 'all', 'famous', 'brands', 'watches', 'arolexbvlgari', 'dior', 'hermes', 'oris', 'cartier', 'and', 'more', 'brands', 'louis', 'vuitton', 'bags', 'wallets', 'gucci', 'bags', 'tiffany', 'jewerly', 'enjoy', 'full', 'year', 'warranty', 'shipment', 'via', 'reputable', 'courier', 'fedex', 'ups', 'dhl', 'and', 'ems', 'speedpost', 'you', 'will', '100', 'recieve', 'your', 'order'] 属于垃圾文件
    ['get', 'off', 'online', 'watchesstore', 'discount', 'watches', 'for', 'all', 'famous', 'brands', 'watches', 'arolexbvlgari', 'dior', 'hermes', 'oris', 'cartier', 'and', 'more', 'brands', 'louis', 'vuitton', 'bags', 'wallets', 'gucci', 'bags', 'tiffany', 'jewerly', 'enjoy', 'full', 'year', 'warranty', 'shipment', 'via', 'reputable', 'courier', 'fedex', 'ups', 'dhl', 'and', 'ems', 'speedpost', 'you', 'will', '100', 'recieve', 'your', 'order'] 属于垃圾文件
    错误率:10.00%
    ['peter', 'the', 'hotels', 'are', 'the', 'ones', 'that', 'rent', 'out', 'the', 'tent', 'they', 'are', 'all', 'lined', 'the', 'hotel', 'grounds', 'much', 'for', 'being', 'one', 'with', 'nature', 'more', 'like', 'being', 'one', 'with', 'couple', 'dozen', 'tour', 'groups', 'and', 'nature', 'have', 'about', '100m', 'pictures', 'from', 'that', 'trip', 'can', 'through', 'them', 'and', 'get', 'you', 'jpgs', 'favorite', 'scenic', 'pictures', 'where', 'are', 'you', 'and', 'jocelyn', 'now', 'new', 'york', 'will', 'you', 'come', 'tokyo', 'for', 'chinese', 'new', 'year', 'perhaps', 'see', 'the', 'two', 'you', 'then', 'will', 'thailand', 'for', 'winter', 'holiday', 'see', 'mom', 'take', 'care'] 属于正常文件
    ['ryan', 'whybrew', 'commented', 'your', 'status', 'ryan', 'wrote', 'turd', 'ferguson', 'butt', 'horn'] 属于正常文件
    ['ordercializviagra', 'online', 'save', '0nline', 'pharmacy', 'noprescription', 'required', 'buy', 'canadian', 'drugs', 'wholesale', 'prices', 'and', 'save', 'fda', 'approved', 'drugs', 'superb', 'quality', 'drugs', 'only', 'accept', 'all', 'major', 'credit', 'cards', 'order', 'today', 'from'] 属于垃圾文件
    ['get', 'off', 'online', 'watchesstore', 'discount', 'watches', 'for', 'all', 'famous', 'brands', 'watches', 'arolexbvlgari', 'dior', 'hermes', 'oris', 'cartier', 'and', 'more', 'brands', 'louis', 'vuitton', 'bags', 'wallets', 'gucci', 'bags', 'tiffany', 'jewerly', 'enjoy', 'full', 'year', 'warranty', 'shipment', 'via', 'reputable', 'courier', 'fedex', 'ups', 'dhl', 'and', 'ems', 'speedpost', 'you', 'will', '100', 'recieve', 'your', 'order'] 属于垃圾文件
    ['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe'] 属于垃圾文件
    ['thanks', 'peter', 'definitely', 'check', 'this', 'how', 'your', 'book', 'going', 'heard', 'chapter', 'came', 'and', 'was', 'good', 'shape', 'hope', 'you', 'are', 'doing', 'well', 'cheers', 'troy'] 属于正常文件
    ['get', 'off', 'online', 'watchesstore', 'discount', 'watches', 'for', 'all', 'famous', 'brands', 'watches', 'arolexbvlgari', 'dior', 'hermes', 'oris', 'cartier', 'and', 'more', 'brands', 'louis', 'vuitton', 'bags', 'wallets', 'gucci', 'bags', 'tiffany', 'jewerly', 'enjoy', 'full', 'year', 'warranty', 'shipment', 'via', 'reputable', 'courier', 'fedex', 'ups', 'dhl', 'and', 'ems', 'speedpost', 'you', 'will', '100', 'recieve', 'your', 'order', 'save', 'off', 'quality', 'watches'] 属于垃圾文件
    ['yay', 'you', 'both', 'doing', 'fine', 'working', 'mba', 'design', 'strategy', 'cca', 'top', 'art', 'school', 'new', 'program', 'focusing', 'more', 'right', 'brained', 'creative', 'and', 'strategic', 'approach', 'management', 'the', 'way', 'done', 'today'] 属于正常文件
    ['there', 'was', 'guy', 'the', 'gas', 'station', 'who', 'told', 'that', 'knew', 'mandarin', 'and', 'python', 'could', 'get', 'job', 'with', 'the', 'fbi'] 属于正常文件
    ['hommies', 'just', 'got', 'phone', 'call', 'from', 'the', 'roofer', 'they', 'will', 'come', 'and', 'spaying', 'the', 'foaming', 'today', 'will', 'dusty', 'pls', 'close', 'all', 'the', 'doors', 'and', 'windows', 'could', 'you', 'help', 'close', 'bathroom', 'window', 'cat', 'window', 'and', 'the', 'sliding', 'door', 'behind', 'the', 'don', 'know', 'how', 'can', 'those', 'cats', 'survive', 'sorry', 'for', 'any', 'inconvenience'] 属于正常文件
    错误率:0.00%
    10次总的错误率为:50.00%
    平均错误率为:5.00%
    

    实战四 新闻分类

    数据集参考文末链接

    from sklearn.naive_bayes import MultinomialNB
    import matplotlib.pyplot as plt
    import os
    import random
    import jieba
    
    
    def TextProcessing(folder_path, test_size=0.2):
        folder_list = os.listdir(folder_path)                  # 查看folder_path下的文件
        data_list = []  # 数据集数据
        class_list = []  # 数据集类别
    
        # 遍历每个子文件夹
        for folder in folder_list:
            new_folder_path = os.path.join(folder_path, folder)    # 根据子文件夹,生成新的路径
            files = os.listdir(new_folder_path)                    # 存放子文件夹下的txt文件的列表
    
            j = 1
            for file in files:   # 遍历每个txt文件
                if j > 100:      # 每类txt样本数最多100个
                    break
                with open(os.path.join(new_folder_path, file), 'r', encoding='utf-8') as f:    # 打开txt文件
                    raw = f.read()
    
                word_cut = jieba.cut(raw, cut_all=False)      # 精简模式,返回一个可迭代的generator
                word_list = list(word_cut)                    # generator转换为list
    
                data_list.append(word_list)             # 添加数据集数据
                class_list.append(folder)               # 添加数据集类别
                j += 1
    
        data_class_list = list(zip(data_list, class_list))   # zip压缩合并,将数据与标签对应压缩
        random.shuffle(data_class_list)                   # 将data_class_list乱序
        index = int(len(data_class_list) * test_size) + 1  # 训练集和测试集切分的索引值
        train_list = data_class_list[index:]        # 训练集
        test_list = data_class_list[:index]           # 测试集
        train_data_list, train_class_list = zip(*train_list)    # 训练集解压缩
        test_data_list, test_class_list = zip(*test_list)     # 测试集解压缩
    
        all_words_dict = {}                # 统计训练集词频,建立一个空字典,键值对
        for word_list in train_data_list:     # 遍历每个列表
            for word in word_list:              # 遍历每个单词
                 if word in all_words_dict.keys():
                    all_words_dict[word] += 1
                 else:
                    all_words_dict[word] = 1
        # 根据键的值倒序排序
        all_words_tuple_list = sorted(all_words_dict.items(), key=lambda f: f[1], reverse=True)   # sorted返回的是一个新的列表
        all_words_list, all_words_nums = zip(*all_words_tuple_list)  # 解压缩
        all_words_list = list(all_words_list)  # 转换成列表
        return all_words_list, train_data_list, test_data_list, train_class_list, test_class_list   # 训练词汇表,训练集,测试集,训练标签,测试标签
    
    
    def MakeWordsSet(words_file):
        words_set = set()      # 创建set集合
        with open(words_file, 'r', encoding='utf-8') as f:  # 打开文件
            for line in f.readlines():  # 一行一行读取
                word = line.strip()  # 去回车
                if len(word) > 0:  # 有文本,则添加到words_set中
                    words_set.add(word)
        return words_set  # 返回处理结果
    
    
    def words_dict(all_words_list, deleteN, stopwords_set):
        feature_words = []  # 特征列表
        n = 1
        for t in range(deleteN, len(all_words_list), 1):
            if n > 1000:  # feature_words的维度为1000
                break
            # 如果这个词不是数字,并且不是指定的结束语,并且单词长度大于1小于5,那么这个词就可以作为特征词
            if not all_words_list[t].isdigit() and all_words_list[t] not in stopwords_set and 1 < len(all_words_list[t]) < 5:
                feature_words.append(all_words_list[t])
            n += 1
        return feature_words
    
    
    # 根据feature_words将文本向量化
    def TextFeatures(train_data_list, test_data_list, feature_words):
        def text_features(text, feature_words):  # 出现在特征集中,则置1
            text_words = set(text)                     # 首先对text去重,没有重复的值,作为词汇表
            features = [1 if word in text_words else 0 for word in feature_words]
            return features
    
        train_feature_list = [text_features(text, feature_words) for text in train_data_list]
        test_feature_list = [text_features(text, feature_words) for text in test_data_list]
        return train_feature_list, test_feature_list  # 训练集,测试集向量化
    
    
    # 新闻分类器
    def TextClassifier(train_feature_list, test_feature_list, train_class_list, test_class_list):
        classifier = MultinomialNB().fit(train_feature_list, train_class_list)
        test_accuracy = classifier.score(test_feature_list, test_class_list)
        return test_accuracy
    
    if __name__ == '__main__':
        # 文本预处理
        folder_path = './SogouC/Sample'  # 训练集存放地址
        all_words_list, train_data_list, test_data_list, train_class_list, test_class_list = TextProcessing(folder_path)
        # 生成stopwords_set
        stopwords_file = './stopwords_cn.txt'
        stopwords_set = MakeWordsSet(stopwords_file)
    
        test_accuracy_list = []
        '''
        deleteNs = range(0, 1000, 20)  # 0 20 40 60 ... 980
        for deleteN in deleteNs:
            feature_words = words_dict(all_words_list, deleteN, stopwords_set)
            train_feature_list, test_feature_list = TextFeatures(train_data_list, test_data_list, feature_words)
            test_accuracy = TextClassifier(train_feature_list, test_feature_list, train_class_list, test_class_list)
            test_accuracy_list.append(test_accuracy)
    
        plt.figure()
        plt.plot(deleteNs, test_accuracy_list)
        plt.title('Relationship of deleteNs and test_accuracy')
        plt.xlabel('deleteNs')
        plt.ylabel('test_accuracy')
        plt.show()
        '''
    
        feature_words = words_dict(all_words_list, 450, stopwords_set)
        train_feature_list, test_feature_list = TextFeatures(train_data_list, test_data_list, feature_words)
        test_accuracy = TextClassifier(train_feature_list, test_feature_list, train_class_list, test_class_list)
        test_accuracy_list.append(test_accuracy)
        ave = lambda c: sum(c) / len(c)
        print(ave(test_accuracy_list))
    
        clt = MultinomialNB()
        clt.fit(train_feature_list, train_class_list)
        final_class_list = list(zip(test_data_list, clt.predict(test_feature_list)))  # zip压缩合并,将测试数据与标签对应压缩
        for each in final_class_list:
            print(each)
    
    0.5789473684210527
    (['\u3000', '\u3000', '20', '位', '网友', '领到', '免费', '回家', '机票', '\n', '\u3000', '\u3000', '自从', 'Qunar', '与', '搜狐', '、', '天益游', '网站', '合办', '“', '夺宝奇兵', '”', '的', '活动', '以来', ',', '已经', '有', '好多', '人中', '得', '免费', '机票', ',', '其中', '有', '二十位', '已经', '定', '好', '回家', '的', '机票', ',', '时间', '就', '在', '临近', '春节', '之前', '。', '为了', '让', '大家', '能够', '轻松愉快', '的', '领到', '机票', ',', 'Qunar', '和', '天益游', '决定', '把', '领票', '地点', '放在', '咖啡店', ',', '让', '大家', '既', '可', '领到', '免费', '机票', ',', '又', '可以', '享受', '到', '咖啡', '的', '浓香', ',', '让', '活动', '至始', '至', '终有', '个', '完美', '的', '诠释', '。', '\n', '\u3000', '\u3000', '上周五', '晚上', '六点', '多', '钟', ',', '中奖人', '陆陆续续', '来到', '领奖', '现场', ',', '在', 'Qunar', '几个', '工作人员', '的', '组织', '下', ',', '由', '去', '哪儿', '旅游', '搜索引擎', '合伙人', '庄臣', '超', '和', '天益游', '总经理', '谭', '治国', '把', '机票', '发到', '每位', '中奖人', '手中', '。', '先来', '的', '惊诧', ',', '后来', '的', '惊讶', ',', '大家', '都', '没想到', '有', '这么', '多中', '得', '大奖', '的', '人', '可以', '拿到', '年前', '的', '免费', '机票', '。', '其中', '有', '好几位', '家离', '北京', '都', '很', '远', ',', '家', '在', '贵阳', '、', '兰州', '、', '重庆', '、', '广州', '的', '都', '有', ',', '每次', '都', '挺', '害怕', '过年', ',', '而', '今年', '他们', '不再', '为此', '而', '担心', '了', '。', '当', '大家', '听到', '还有', '到', '机场', '的', '免费', '接送', '时', ',', '不由得', '发出', '欢乐', '的', '笑声', '。', '\n', '\u3000', '\u3000', '活动', '很快', '结束', '了', ',', '大家', '留下', '合影', ',', '也', '回去', '了', '。', '对', '某些', '人', '来说', '这', '一刻', '已经', '在', '记忆', '中', '消失', ',', '而', '对于', '某些', '人', '来说', ',', '这', '一刻', '刻骨铭心', '!'], 'C000022')
    (['\u3000', '\u3000', '关键字', ':', '裁员', '\u3000', '美国在线', '\u3000', '呼叫', '中心', '\n', '\u3000', '\u3000', '标题', ':', '美国在线', '计划', '裁员', '1300', '人', '占', '全球', '员工', '总数', '7%', '\n', '\u3000', '\u3000', '时间', ':', '美国', '东部', '时间', '5', '月', '9', '日', '上午', '10', '时', '30', '分', '消息', '\n', '\u3000', '\u3000', '来源', ':', '英文', '雅虎', '\n', '\u3000', '\u3000', '内容摘要', ':', '美国在线', '计划', '裁员', '1300', '人', ',', '约', '占', '其', '全球', '员工', '总数', '的', '7%', ',', '位于', '费罗', '里', '达州', '杰克逊', '维尔', '呼叫', '中心', '将', '被', '关闭', ',', '此外', ',', '位于', '犹他州', '奥格登', '美国', '亚利桑那州', '图森', '的', '呼叫', '中心', '也', '被', '列入', '此次', '裁员', '的', '范围', '。', '这', '是', '自', '去年', '秋天', '美国在线', '裁员', '700', '人', '以来', '最', '大规模', '的', '一次', '人员', '精简', '行动', '。', '去年', '10', '月份', ',', '面对', '拨号上网', '用户数量', '持续', '下跌', ',', '美国在线', '关闭', '奥兰多', '的', '呼叫', '中心', ',', '位于', '杰克逊', '维尔和', '总部', '杜勒斯', '的', '呼叫', '中心', '有', '部分', '职位', '被', '削减', ',', '总共', '裁员', '700', '人', ',', '约', '占', '其', '全球', '员工', '总数', '的', '4%', ',', '尽管', '美国在线', '的', '用户', '流失', '现象', '严重', ',', '但', '该', '公司', '的', '发言人', '尼古拉斯', '-', '格', '拉汉姆', '将', '这', '一', '结果', '归咎于', '用户', '对', '电脑', '的', '日益', '了解', '以及', '更', '多', '工具', '的', '出现', ',', '他', '表示', ':', '“', '与', '1996', '年', '美国在线', '建立', '会员中心', '相比', ',', '2006', '年', '的', '英特网', '世界', '是', '一个', '完全', '不同', '的', '世界', ',', '美国在线', '的', '会员', '们', '头脑', '更加', '灵活', ',', '具备', '更加', '丰富', '的', '电脑知识', ',', '他们', '几乎', '都', '是', '电脑', '通', ',', '一般', '的', '故障', '都', '能', '自己', '排除', ',', '呼叫', '中心', '的', '功能', '日趋', '减弱', '。', '”', '一项', '数据', '显示', ',', '自', '2004', '年', '以来', ',', '美国在线', '的', '呼叫', '量', '下降', '了', '近一半', '。', '\n', '\u3000', '\u3000', '关键字', ':', '手机', '销售', '\u3000', '排名', '\u3000', '瑞典', '\n', '\u3000', '\u3000', '标题', ':', '4', '月份', 'Telia', '商店', '手机', '销售', '排名', '前', '10', '位', '\n', '\u3000', '\u3000', '时间', ':', '美国', '东部', '时间', '5', '月', '9', '日', '上午', '11', '时', '35', '分', '消息', '\n', '\u3000', '\u3000', '来源', ':', '法新社', '\n', '\u3000', '\u3000', '内容摘要', ':', '瑞典', '最大', '的', '通信', '产品', '零售店', 'Telia', '今天', '公布', '2006', '年', '4', '月份', '手机', '销售', '排行榜', ',', '进入', '销售', '前十', '的', '手机', '中索', '爱', '占', '5', '款', ',', '诺基亚', '占', '3', '款', ',', '三星', '占', '2', '款', ',', '其中', '有', '两款', '是', '3G', '手机', '(', '诺基亚', '6280', '和', '三星', 'Z140', ')', ',', '六款', '有', '照相', '功能', ',', '六款', '有', 'MP3', '播放', '功能', ',', '具体', '的', '排名', '为', ':', '排名', '前', '十位', '的', '手机', '为', ':', '(', '1', ')', '索爱', 'K750i', '(', '上', '月', '排名', '第四', ')', '、', '(', '2', ')', '诺基亚', '3120', '(', '上', '月', '排名', '第三', ')', '、', '(', '3', ')', '诺基亚', '5140i', '(', '上', '月', '排名', '第一', ')', '、', '(', '4', ')', '索爱', 'Z300i', '(', '上', '月', '排名', '第五', ')', '、', '(', '5', ')', '诺基亚', '6280', '(', '与', '上', '月', '的', '排名', '一致', ')', '、', '(', '6', ')', '索爱', 'W810i', '(', '与', '上', '月', '的', '排名', '一致', ')', '、', '(', '7', ')', '三星', 'X660', '(', '与', '上', '月', '的', '排名', '一致', ')', '、', '(', '8', ')', '索爱', 'Z520i', '(', '上', '月', '排名', '第二', ')', '、', '(', '9', ')', '索爱', 'W800i', '(', '上', '月', '排名', '第六', ')', '、', '(', '10', ')', '三星', 'Z140', '(', '上', '月', '排名', '第九', ')', '。', 'Telia', '是', '瑞典', '最大', '的', '移动电话', '零售店', ',', '拥有', '78', '个', '商店', ',', '该', '排名', '就是', '依据', '各', '商店', '的', '销售', '数据', '得出', '的', '结果', ',', 'Telia', '市场部', '的', '负责人', '指出', ',', '“', '照相', '以及', 'MP3', '播放', '功能', '已经', '成为', '许多', '客户', '对', '手机', '的', '基本', '要求', ',', '手机用户', '对于', '移动', '电视', '的', '需求', '也', '在', '不断', '增加', '。', '”', '\n', '\u3000', '\u3000', '关键字', ':', '业内', '合作', '\u3000', '下载', '\u3000', '电视', '连续剧', '\n', '\u3000', '\u3000', '标题', ':', '苹果公司', '提供', '福克斯', '娱乐', '集团', '出品', '的', '电视', '连续剧', '的', '下载', '\n', '\u3000', '\u3000', '时间', ':', '美国', '东部', '时间', '5', '月', '9', '日', '上午', '11', '时', '20', '分', '消息', '\n', '\u3000', '\u3000', '来源', ':', '英文', '雅虎', '\n', '\u3000', '\u3000', '内容摘要', ':', '苹果公司', '日前', '宣布', ',', 'iTunes', '音乐', '商店', '(', 'Music', ' ', 'Store', ')', '已经', '开始', '销售', '福克斯', '娱乐', '集团', '出品', '的', '电视', '连续剧', ',', '例如', '此前', '风靡', '全球', '的', '《', '24', '》', '。', '苹果公司', '介绍', '称', ',', '每部', '电视', '连续剧', '的', '下载', '费用', '为', '1.99', '美元', ',', '除了', '《', '24', '》', '之外', ',', '《', '盾牌', '》', '、', '《', '越狱', '》', '、', '《', '吸血鬼', '猎人', '巴菲', '》', '也', '在', '下载', '之', '列', '。', '此前', ',', 'iTunes', '音乐', '商店', '提供', '来自', 'ABC', '、', 'CBS', '以及', 'NBC', '的', '节目', '下载', '服务', '。', '\n', '\u3000', '\u3000', '关键字', ':', '民意测验', '\u3000', '电子游戏', '\u3000', '美国', '\n', '\u3000', '\u3000', '标题', ':', '40%', '美国', '成年', '男子', '玩', '电子游戏', '\n', '\u3000', '\u3000', '时间', ':', '美国', '东部', '时间', '5', '月', '9', '日', '上午', '10', '时', '20', '分', '消息', '\n', '\u3000', '\u3000', '来源', ':', '英文', '雅虎', '\n', '\u3000', '\u3000', '内容摘要', ':', '美联社', '与', '美国在线', '近期', '开展', '的', '一项', '民意测验', '显示', ',', '十个', '成年', '美国', '男人', '当中', '有四人', '通过', '电脑', '或者', '游戏机', '玩', '电子游戏', ',', '其中', '有', '45%', '的', '人', '通过', '因特网', '玩', '电子游戏', ',', '多于', '三分之一', '的', '人', '2005', '年', '花费', '在', '网络游戏', '上', '的', '资金', '达到', '两百', '美元', ',', '42%', '的', '人', '每周', '玩', '电子游戏', '的', '时间', '超过', '了', '四个', '小时', ',', '26%', '的', '人', '通过', '游戏机', '玩', '电子游戏', ',', '六分之一', '的', '人', '每周', '在线', '玩游戏', '的', '时间', '为', '十个', '小时', '。', '关于', '游戏', '的', '内容', ',', '战略', '游戏', '最', '受欢迎', ',', '其次', '为', '体育', '游戏', ',', '冒险游戏', '还有', '射击', '游戏', '以及', '仿真', '游戏', '。', '\n', '\u3000', '\u3000', '关键字', ':', '打击', '盗版', '\u3000', '下载', '\u3000', '华纳', '兄弟', '\n', '\u3000', '\u3000', '标题', ':', '华纳', '兄弟', '计划', '通过', 'BitTorrent', '提供', '影片', '下载', '服务', '\n', '\u3000', '\u3000', '时间', ':', '美国', '东部', '时间', '5', '月', '9', '日', '上午', '11', '时', '55', '分', '消息', '\n', '\u3000', '\u3000', '来源', ':', '英文', '雅虎', '\n', '\u3000', '\u3000', '内容摘要', ':', '美国', '娱乐业', '巨头', '华纳', '兄弟', '公司', '(', 'Warner', ' ', 'Brothers', ')', '将', '成为', '第一家', '向', 'BitTorrent', '用户', '提供', '电影', '内容', '下载', '服务', '的', '公司', ',', '该', '公司', '希望', '通过', '此举', '打击', '盗版', '行为', '。', '华纳', '兄弟', '家庭', '娱乐', '公司总裁', 'Tsujihara', '表示', ':', '“', '盗版', '的', '问题', '变得', '越来越', '严重', ',', '我们', '的', '这种', '作法', '是', '将', '这', '一', '问题', '变成', '一种', '机会', ',', '如果', '我们', '能够', '将', '5%', ',', '10%', '甚至', '是', '15%', '的', '这些', '用户', '转化成', '合法', '的', '用户', ',', '其', '影响力', '将会', '十分', '的', '重大', '。', '”', '华纳', '兄弟', '公司', '指出', ',', '用户', '可以', '租用', '或者', '下载', '那些', '可以', '被', '制作', '成', 'DVD', '的', '拷贝', ',', '但是', '此项', '服务', '推出', '日期', '以及', '具体', '的', '定价', '目前', '还', '不得而知', '。', '此前', ',', '华纳', '兄弟', '准备', '将', '电影', '如', '《', '蝙蝠侠', '》', '、', '电视', '连续剧', '《', '玩酷', '世代', '》', '等', '影片', '通过', 'P2P', '网络', '在', '网路上', '销售', '。', '该', '公司', '一', '负责人', '指出', ',', '成功', '打败', '目前', '线上', '剽窃', '行为', '最', '有效', '的', '武器', '之一', '就是', '向', '用户', '提供', '合法', '且', '容易', '使用', '的', '替代性', '选择', '。', 'In2Movies', '服务', '使', '观众', '能够', '合法', '下载', '华纳', '旗下', '百视', '达', '的', '电影', '、', '地区性', '节目', '。', '\n', '\u3000', '\u3000', '关键字', ':', '业绩', '\u3000', '荷兰', '电讯', '公司', '\u3000', '净收入', '\n', '\u3000', '\u3000', '标题', ':', '荷兰', '电讯', '公司', 'Royal', ' ', 'KPN', ' ', 'NV', '周二', '表示', '其', '第一季度', '净收入', '达到', '3.83', '亿美元', '\n', '\u3000', '\u3000', '时间', ':', '美国', '东部', '时间', '5', '月', '9', '日', '上午', '11', '时', '20', '分', '消息', '\n', '\u3000', '\u3000', '来源', ':', '道琼斯', '新闻', '\n', '\u3000', '\u3000', '内容摘要', ':', '荷兰', '电讯', '公司', 'Royal', ' ', 'KPN', ' ', 'NV', '周二', '表示', '其', '第一季度', '净收入', '达到', '3.83', '亿美元', ',', '比', '去年同期', '的', '2.74', '亿美元', '增长', '了', '40%', ',', '销售收入', '也', '达到', '了', '37.2', '亿美元', '。', '在', '固定', '电话', '部门', '收入', '下降', '2.3%', '达到', '21.4', '亿美元', '的', '情况', '下', ',', '移动', '收入', '增长', '了', '15%', ',', '达到', '了', '19', '亿美元', '。', '此外', ',', '该', '公司', '在', '德国', '新', '增加', '用户', '70', '万', '。', '\n', '\u3000', '\u3000', '关键字', ':', '新举措', '\u3000', '漫游费', '\u3000', '沃达丰', '\n', '\u3000', '\u3000', '标题', ':', '沃达丰', '表示', '将', '在', '明年', '降低', '手机', '漫游', '资费', '\n', '\u3000', '\u3000', '时间', ':', '美国', '东部', '时间', '5', '月', '9', '日', '上午', '10', '时', '25', '分', '消息', '\n', '\u3000', '\u3000', '来源', ':', '道琼斯', '新闻', '\n', '\u3000', '\u3000', '内容摘要', ':', '迫于', '欧洲委员会', '的', '压力', ',', '英国', '电信', '巨头', '沃达丰公司', '(', 'Vodafone', ')', '近日', '表示', '将', '在', '明年', '降低', '手机', '漫游', '资费', ',', '其', '低价', '幅度', '将', '达到', '40%', '。', '欧洲委员会', '此前', '的', '建议', '称', ',', '当', '欧洲', '用户', '出国', '后', ',', '他们', '不', '应该', '被', '收取', '漫游费', ',', '不能', '因为', '他们', '出国', '旅行', '而', '缴纳', '更', '高', '的', '费用', '。', '\n', '\u3000', '\u3000', '关键字', ':', '新', '产品', '\u3000', '超薄', '手机', '\u3000', '三星', '\n', '\u3000', '\u3000', '标题', ':', '三星公司', '在', '莫斯科', '电信展', '推出', '两款', '超薄', '手机', '\n', '\u3000', '\u3000', '时间', ':', '美国', '东部', '时间', '5', '月', '9', '日', '上午', '10', '时', '40', '分', '消息', '\n', '\u3000', '\u3000', '来源', ':', '英文', '雅虎', '\n', '\u3000', '\u3000', '内容摘要', ':', '在', '莫斯科', '的', 'Sviaz', ' ', 'ExpoComm', ' ', '2006', '电信展', '上', ',', '三星公司', '推出', '两款', '超薄', '手机', ',', '其中', '一款', '为', 'SGH', '-', 'X820', ',', '厚', '6.9', '毫米', ',', '重', '66', '克', ',', '内置', '200', '万', '像素', '摄像头', '和', 'MP3', '播放器', ',', '容量', '80MB', ',', '支持', '视频', '录制', '、', '蓝牙', '和', '电视', '输出', '。', '另外', '一款', '为', '滑盖式', '手机', 'SGH', '-', 'D900', ',', '厚度', '及', '重量', '比', 'SGH', '-', 'X820', '稍大', '一些', ',', '内置', '300', '万', '像素', '摄像头', ',', '支持', 'Quad', '-', 'band', ' ', 'GSM', '网络', ',', '但', '三星公司', '并', '没有', '透露', '这', '两款', '手机', '的', '价格', '。', '\n', '\u3000', '\u3000', '关键字', ':', '服务', ' ', '高清晰', ' ', '数字', '广播', '\n', '\u3000', '\u3000', '标题', ':', '英国广播公司', '(', 'BBC', ')', '首次', '推出', '免费', '的', '数字', '广播', '服务', '\n', '\u3000', '\u3000', '时间', ':', '美国', '东部', '时间', '5', '月', '9', '日', '上午', '7', '时', '10', '分', '消息', '\n', '\u3000', '\u3000', '来源', ':', '路透社', '\n', '\u3000', '\u3000', '内容摘要', ':', '英国广播公司', '(', 'BBC', ')', '本周', '内', '首次', '推出', '了', '使用', '电视', '格式', '的', '高清晰', '数字', '广播', ',', '这项', '服务', '将', '进行', '为期', '一年', '的', '试验', '。', '根据', '此前', '英国广播公司', '所作', '的', '调查', '显示', ',', '了解', '高清晰', '数字', '广播', '的', '听众', '都', '期待', '着', 'BBC', '尽早', '开通', '高清晰', '数字', '广播', '服务', ',', '并', '希望', '在', '任何', '频道', '都', '能', '收到', '该', '广播', '。', '据', '报道', ',', '该项', '广播', '将', '从', '5', '月', '11', '日', '正式', '开通', ',', '开通', '之初', '仅限于', '拥有', '高清晰', '设备', '的', '用户', '。', 'BBC', '公司', '同时', '还', '证实', '了', '在', '世界杯', '期间', ',', '在', '某些', '地区', '数字', '广播', '能', '用', '电缆', '进行', '传播', '。', '从', '6', '月', '9', '日', '开始', ',', 'BBC', '公司', '将', '对', '世界杯', '进行', '高清晰', '无线电', '和', '电视', '的', '同时', '联播', '。', '这种', '联播', '还', '将', '应用', '于', '温布尔登', '主要', '的', '赛事', '。', 'BBC', '电视', '部门', '总监', '加纳', '?', '贝内特', '(', 'Jana', ' ', 'Bennett', ')', '说', ':', '“', '高清晰', '数字', '广播', '是', 'BBC', '公司', '计划', '在', '未来', '向', '全世界', '提供', '高清晰', '服务', '的', '而', '迈出', '的', '第一步', ',', '虽然', '步幅', '小', ',', '但是', '是', '激动人心', '的', '。', '”', '\n', '\u3000', '\u3000', '关键字', ':', '电脑', '黑客', ' ', '审判', ' ', '服刑', '\n', '\u3000', '\u3000', '标题', ':', '美国', '电脑', '黑客', '安契塔', '被判', '入狱', '57', '个', '月', '\n', '\u3000', '\u3000', '时间', ':', '美国', '东部', '时间', '5', '月', '9', '日', '上午', '10', '时', '35', '分', '消息', '\n', '\u3000', '\u3000', '来源', ':', '法新社', '\n', '\u3000', '\u3000', '内容摘要', ':', '美国', '电脑', '黑客', '安契塔', '被判', '入狱', '57', '个', '月', '。', '检方', '指出', ',', '安契塔', ',', '20', '岁', ',', '是', '知名', '秘密', '骇客', '网络', '“', '地下', '蠕虫', '大师', '”', '的', '要员', ',', '于', '去年', '十一月', '被捕', ',', '这是', '第一', '起遭', '起诉', '的', '相关', '案件', '。', '他', '被控', '侵入', '四十万', '余部', '电脑', '(', '或称', '僵尸', '网路', ',', 'bot', ' ', 'nets', ')', '损害', '其', '系统', ',', '并', '促使', '受害', '电脑', '大量', '寄发', '垃圾邮件', '。', '遭', '安契塔', '入侵', '的', ',', '还', '包括', '美国', '军方', '的', '服务器', '。', ' ', '在', '洛杉矶', '的', '联邦', '法庭', '上', ',', '面对', '17', '项', '指控', ',', '安契塔', '承认', '密谋', '违反', '电脑', '诈欺', '滥用', '法', '、', '反', '垃圾邮件', '法', ',', '和', '损及', '美国', '军方', '电脑', '。', '他', '并', '坦承', '散播', '能', '促使', '电脑', '发送', '垃圾邮件', '、', '广告', '以及', '对', '网站', '发动', '瘫痪', '性', '攻击', '的', '恶意', '软体', '。', ' ', '检方', '发言人', '莫柴克', '说', ':', '“', '安契塔', '尤其', '对', '这', '一连串', '的', '秘密', '犯行', '负有责任', ',', '他', '入侵', '加州', '近', '五十万', '部', '电脑系统', ',', '受', '波及', '的', '电脑', '并', '不', '限于', '家用电脑', ',', '这', '也', '让', '他', '与', '他人', '得以', '发动', '大规模', '的', '攻击', '。', '”', ' ', '安契塔', '在', '庭上', '同意', '赔偿', '军事', '单位', '一万五千', '美元', ',', '他', '的', '不法', '获益', '也', '遭', '没收', ',', '其中', '包括', '逾', '六万美元', '现金', '、', '一辆', 'B', 'M', 'W', '汽车', '与', '一些', '电脑设备', '。', '(', '章田', '编译', ')'], 'C000008')
    (['\u3000', '\u3000', '\u3000', '世界', '的', '旅游业', '越来越', '熟悉', '一个', '新名词', '—', '—', '中国', '的', '黄金周', '。', '每到', '这个', '时候', ',', '中国', '都', '会', '迎来', '一次', '旅游', '高潮', ',', '一直', '席卷', '周边', '甚至', '更为', '遥远', '的', '一些', '国家', '和', '地区', ',', '使', '他们', '也', '跟', '随着', '这种', '固定', '的', '周期', '迎来', '一个个', '旅游', '、', '消费', '旺季', '。', '\n', '\u3000', '\u3000', '尽管', '出入境', '管理', '部门', '尚未', '公布', '具体', '数字', ',', '全国假日办', '负责人', '预测', '说', ',', '今年', '“', '五一', '”', '黄金周', ',', '出境', '旅游', '规模', '很', '可能', '超过', '去年', '“', '五一', '”', '黄金周', '1000', '多万人次', '的', '水平', '。', '\n', '\u3000', '\u3000', '中国', '游客', '涌', '来', '\n', '\u3000', '\u3000', '“', '标志', '”', '泰国', '从', '海啸', '中', '复苏', '\n', '\u3000', '\u3000', '5', '月', '2', '日', ',', '从事', '服装设计', '的', '胡明明', '第四次', '飞往', '泰国', '普吉岛', '度假', '。', '黄金周', '对', '她', '而言', ',', '就是', '躺', '在', '普吉岛', '沙滩', '上', ',', '晒', '一周', '太阳', '。', '作为', '中国', '公民', '最早', '的', '旅游', '目的地', '代表', '景点', ',', '普吉岛', '代表', '了', '东南亚', '国家', '在', '中国', '消费者', '心目', '中', '的', '独特', '地位', ':', '回头客', '越来越', '多', '。', '\n', '\u3000', '\u3000', '泰国', '国家旅游局', '的', '数据', '显示', ',', '2005', '年', '前往', '普吉', '的', '中国', '旅游者', '达', '10', '万人次', '左右', ',', '预计', '2006', '年', '将', '突破', '15', '万', ',', '从而', '成为', '泰国', '南部', '旅游业', '在', '印度洋', '海啸', '后', '全面', '恢复', '的', '“', '重要', '标志', '”', '。', '\n', '\u3000', '\u3000', '目前', '中国', '人', '出境游', '基本', '都', '是', '第一次', '出国', ',', '因此', '更', '看重', '价格', '。', '“', '中国', '人', '喜欢', '出访', '大城市', ',', '且', '往往', '都', '是', '走马观花', ',', '到', '哪里', '都', '要', '先', '照相', '。', '”', '一', '旅行社', '总经理', '助理', '郭明', '告诉', '记者', '。', '出境', '爱', '购物', '可能', '是', '中国', '人', '出境游', '的', '又', '一大', '特色', '。', '\n', '\u3000', '\u3000', '俄罗斯', '、', '蒙古', '游', '\n', '\u3000', '\u3000', '国人', '今年', '出游', '“', '新亮点', '”', '\n', '\u3000', '\u3000', '东南亚', '国家', '打出', '“', '山水相连', '”', '牌', ',', '韩国', '和', '日本', '旅游界', '则', '希望', '以', '“', '文化', '渊源', '”', '赢得', '中国', '“', '休闲', '商机', '”', '。', '在', '《', '大长', '今', '》', '、', '“', '韩流', '”', '等', '文化', '因素', '刺激', '之下', ',', '中', '韩', '两国之间', '的', '航线', '变得', '越来越', '繁忙', '。', '就', '在', '“', '五一', '”', '前', ',', '大', '韩', '航空', '宣布', '计划', '5', '年内', '将', '韩中', '航线', '增至', '50', '条', '。', '\n', '\u3000', '\u3000', '旅游', '交通', '经济', '分析', '师刘斌', '说', ',', '2006', '年', '“', '五一', '”', '黄金周', ',', '中国', '周边旅游', '的', '新亮点', '是', '俄罗斯', '、', '蒙古国', '。', '随着', '夏季', '到来', ',', '北亚', '风光', '呈现出', '独特', '的', '吸引力', '。', '目前', ',', '俄罗斯', '专门', '为', '中国', '旅游者', '成立', '的', '“', '无国界', '世界', '”', '协会', '正', '全力以赴', '利用', '中', '俄', '两国', '互办', '“', '国家', '年', '”', '的', '机遇', ',', '吸引', '更', '多', '中国', '游客', '“', '北上', '消费', '”', '。', '\n', '\u3000', '\u3000', '羡慕', '黄金周', '\n', '\u3000', '\u3000', '印度', '日本', '都', '“', '心动', '”', '了', '\n', '\u3000', '\u3000', '旅游', '观察家', '指出', ',', '中国', '“', '旅游', '休闲', '”', '商机', ',', '正', '从', '东南亚', '向', '东北亚', '“', '扇形', '展开', '”', ',', '并', '惠及', '越来越', '多', '的', '邻邦', '。', '\n', '\u3000', '\u3000', '刘斌', '认为', ',', '目前', '东南亚', '抢', '得', '中国', '“', '休闲', '潮', '”', '之先', ',', '可以', '为', '中国', '东盟', '经济', '贸易', '一体化', '“', '推波助澜', '”', '。', '东北亚地区', '作为', '中国', '主要', '客源', '市场', ',', '“', '双向', '流动', '”', '将', '催生', '“', '东北亚', '旅游圈', '”', ',', '从而', '与', '东南亚', '旅游圈', '南北', '呼应', '。', '这样', ',', '中国', '人', '的', '休闲', '不仅', '将', '成为', '所有', '周边国家', '的', '商机', ',', '而且', '将', '成为', '中国', '与', '这些', '国家', '睦邻友好', '的', '“', '休闲', '纽带', '”', '。', '\n', '\u3000', '\u3000', '从', '发展', '旅游', '经济', '的', '角度', '来说', ',', '中国', '的', '黄金周', '无疑', '让', '各国', '羡慕', '。', '印度', '的', '一家', '报纸', '曾', '对', '中国政府', '“', '聪明', '并且', '执行', '有力', '的', '黄金周', '政策', '”', '大加', '赞赏', ',', '认为', '印度政府', '应当', '向', '中国', '学习', '。', '而', '日本', '为了', '促进', '旅游', '、', '拉动', '内需', ',', '也', '修改', '了', '“', '节日', '法', '”', ',', '人为', '地', '制造', '出', '更', '多', '的', '长假', ',', '方便', '人们', '外出', '旅游', '或', '安排', '各种', '休闲活动', '。', '(', '新华', '每日电讯', ')', '\n', '\u3000', '\u3000', '新闻', '链接', '\n', '\u3000', '\u3000', '悉尼', '\n', '\u3000', '\u3000', '“', '处处', '是', '中国', '人', ',', '还', '以为', '回国', '了', '”', '\n', '\u3000', '\u3000', '“', '到', '悉尼', '来', '旅游', ',', '到处', '都', '能', '看到', '中国', '人', '的', '面孔', '。', '要不是', '看到', '外国人', '多点', ',', '还', '以为', '又', '回到', '了', '中国', '呢', '!', '”', '一位', '来自', '北京', '的', '张姓', '游客', '说', '。', '\n', '\u3000', '\u3000', '这', '也', '是', '不少', '中国', '游客', '初到', '澳大利亚', '时', '的', '感觉', '。', '去年', ',', '有', '28', '万', '中国', '游客', '赴', '澳', '旅游', ',', '占来', '澳', '游客', '总数', '的', '5.2%', '。', '\n', '\u3000', '\u3000', '在', '去年', '12', '月', '澳大利亚联邦政府', '发布', '的', '旅游', '战略', '中', ',', '中国', '被', '认为', '是', '澳', '旅游业', '增长', '最快', '的', '市场', '。', '据澳', '旅游业', '预测', '委员会', '预计', ',', '中国', '到', '澳大利亚', '旅游', '的', '人数', '将', '以', '每年', '16.5%', '的', '速度', '增长', ',', '到', '2014', '年', ',', '将会', '有', '110', '万', '中国', '游客', '来澳', '旅游', ',', '澳大利亚', '每', '7', '名', '游客', '中', '就', '有', '1', '名', '中国', '公民', '。', '届时', ',', '中国', '将', '有望', '成为', '澳大利亚', '最大', '的', '客源国', ',', '中国', '游客', '每年', '将', '为', '澳', '旅游业', '贡献', '60', '亿澳元', '。', '\n', '\u3000', '\u3000', '巴黎', '\n', '\u3000', '\u3000', '中国', '人', '不再', '“', '上车', '睡觉', '下车', '拍照', '”', '\n', '\u3000', '\u3000', '四五', '月份', '本是', '中国', '人', '赴法', '旅游', '的', '淡季', ',', '但', '“', '五一', '”', '长假', '却是', '淡季', '中', '的', '旺季', ',', '法国', '各大', '华人', '旅行社', '在此期间', '接待', '的', '中国', '游客', '数量', '几乎', '是', '平时', '的', '两倍', '。', '而', '中国', '人', '对', '赴', '法国', '乃至', '欧洲', '旅游', '的', '观念', '也', '发生', '改变', '。', '\n', '\u3000', '\u3000', '据', '法国', '文华', '旅行社', '总经理', '陈超英', '介绍', ',', '过去', ',', '中国', '游客', '总想', '在', '最', '短时间', '内以', '最少', '费用', '游览', '到', '最', '多', '数量', '的', '法国', '及其', '周边国家', '景点', '。', '一时间', ',', '“', '上车', '睡觉', ',', '下车', '拍照', ',', '一问', '什么', '都', '不', '知道', '”', '这', '段', '顺口溜', '成', '了', '此类', '贪多', '求全', '的', '旅游', '方式', '的', '生动', '写照', '。', '\n', '\u3000', '\u3000', '几年', '过去', ',', '随着', '出境游', '机会', '增加', ',', '越来越', '多', '的', '中国', '游客', '迷上', '了', '欧美', '游客', '所', '青睐', '的', '休闲游', '和', '主题', '游', '。', '陈超英', '说', ',', '以', '文华', '旅行社', '为例', ',', '参加', '休闲游', '和', '主题', '游', '的', '中国', '游客', '三年', '前', '只', '占', '中国', '游客', '总数', '的', '5%', ',', '现在', '已', '占', '到', '了', '30%', ',', '预计', '三年', '后', '将', '达到', '50%', '左右', '。', '他', '说', ',', '这', '不仅', '说明', '中国', '游客', '的', '消费', '能力', '提高', ',', '也', '说明', '他们', '的', '消费', '心理', '趋于', '成熟', '。', '\n', '\u3000', '\u3000'], 'C000016')
    (['\u3000', '\u3000', '万络', '给', '止痛药', '市场', '带来', '的', '阴霾', '久久', '仍未散', '去', ',', '但', '这', '丝毫', '不能', '说明', '该', '市场', '的', '需求', '在', '减少', '。', '在', '既定', '的', '需求', '现实', '下', ',', 'C', 'O', 'X', '-', '2', '抑制剂', '的', '衰落', ',', '必然', '引来', '趁虚而入', '者', '。', '不久前', '我国', '河南', '帅克', '制药', '和', '贵州', '益佰', '先后', '宣称', '将', '倚靠', '新', '的', '止痛药', '进入', '该', '领域', ',', '一场', '“', '分羹', '”', '之战', '显然', '已经', '急促', '展开', '。', '\n', '\u3000', '\u3000', '潜力', '巨大', '的', '镇痛药', '市场', '一直', '是', '跨国公司', '的', '天下', ',', '而', '最近', '它们', '的', '优势', '地位', '正', '经受', '挑战', ',', '其', '缘由', '是', '2', '0', '0', '4', '年', '8', '月份', '王牌', '止痛药', '万络', '爆出', '安全性', '问题', '引发', '了', '市场', '对', '新型', '非甾体', '止痛药', '的', '不信任感', '。', '\n', '\u3000', '\u3000', '去年', '9', '月', '万络', '自动', '撤出', '我国', '后', '腾出', '了', '巨大', '的', '市场', '空间', ',', '引起', '了', '众多', '企业', '的', '觊觎', ',', '去年', '5', '月', '1', '3', '日', ',', '中美史克', '曾经', '发起', '“', '霞光', '行动', '”', ',', '试图', '从', '困境', '中', '挽救', '其', 'O', 'T', 'C', '王牌', '药', '芬必得', ',', '但', '更', '多', '的', '国内', '企业', '则', '尽量', '避开', '身处', '安全性', '危机', '旋涡', '中', '的', 'C', 'O', 'X', '-', '2', '抑制剂', '领域', ',', '希望', '从', '新', '的', '镇痛', '领域', '入手', '找到', '征战', '止痛药', '市场', '的', '新', '武器', '。', '\n', '\u3000', '\u3000', '不久前', '我国', '河南', '帅克', '制药', '和', '贵州', '益佰', '先后', '宣称', '将', '倚靠', '新', '的', '止痛药', '进入', '这个', '潜力', '仅次于', '感冒药', '的', '新', '领域', ',', '据帅克', '制药', '董事长', '张克军', '透露', ',', '帅克', '开发', '的', '止痛', '新药', '氨酚', '曲马', '多片', '即将', '上市', '。', '据', '记者', '了解', ',', '该', '产品', '也', '是', '今年', '西安', '杨森', '力推', '的', '重点', '产品', '。', '而', '贵州', '益佰', '方面', '则', '透露', ',', '该', '公司', '将', '凭借', '一种', '止痛', '中药', '来', '分切', '国内', '巨大', '的', '止痛药', '市场', '。', '\n', '\u3000', '\u3000', '显然', ',', '一场', '新', '的', '止痛药', '市场', '“', '分羹', '”', '大战', '已经', '打响', '。', '\n', '\u3000', '\u3000', '止痛药', '市场', '依然', '是', '金矿', '\n', '\u3000', '\u3000', '分析', '人士', '指出', ',', '尽管', '目前', '使用', '最多', '的', 'C', 'O', 'X', '-', '2', '抑制剂', '正', '遭遇', '安全性', '危机', ',', '但', '对于', '整个', '止痛药', '并', '不', '构成', '影响', ',', '此', '事件', '的', '最大', '可能', '是', '各大类', '止痛药', '由此', '进行', '一轮', '市场', '替代', ',', '而', '与此同时', ',', '整个', '市场', '还', '在', '继续', '增长', '。', '\n', '\u3000', '\u3000', '中国', '已经', '步入', '老龄化', '社会', ',', '中老年', '人口', '约', '有', '5', '亿', '。', '风湿', '和', '类风湿', '关节炎', '、', '肩周炎', '、', '颈椎病', '、', '骨质增生', '等', '疾病', '在', '老年', '甚至', '中年人', '群中', '属于', '常见病', '、', '多发病', ',', '各类', '疼痛', '病症', '患者', '约', '占', '中老年', '群体', '的', '6', '5', '%', ',', '而且', '这一', '群体', '数量', '还', '在', '不断', '的', '增加', '。', '\n', '\u3000', '\u3000', '另外', ',', '随着', '我国', '制造业', '大国', '地位', '的', '不断', '提升', ',', '产业工人', '数量', '急剧', '膨胀', ',', '长期', '的', '劳作', '容易', '导致', '各种', '机体', '劳损', '和', '关节', '疼痛', ',', '因此', ',', '该', '群体', '已经', '成为', '疼痛', '药物', '消费', '的', '另', '一个', '大', '群体', '。', '由于', '电脑', '等', '工具', '的', '引入', ',', '人们', '的', '工作', '和', '生活', '方式', '已经', '发生', '了', '根本', '的', '改变', ',', '长期', '的', '静坐', '催生', '了', '这', '一', '人群', '各种', '疼痛', '的', '出现', ',', '这是', '导致', '疼痛', '人群', '增长', '的', '又', '一个', '重要', '因素', '。', '\n', '\u3000', '\u3000', '据', 'I', 'M', 'S', '国际', '咨询', '公司', '预测', ',', '2', '0', '0', '5', '年', ',', '全球', '止痛剂', '市场', '总量', '达', '8', '0', '0', '亿美元', '以上', '。', '目前', ',', '美国', '、', '欧洲', '和', '日本', '是', '全球', '最大', '的', '止痛药', '市场', ',', '过去', '3', '0', '年', '来', '止痛药', '市场', '销售额', '一直', '在', '稳步', '上升', '。', '国内', '的', '资料', '也', '显示', ':', '我国', '非处方药', '市场', '上', '止痛药', '增长', '迅速', ',', '其', '销售', '仅次于', '感冒药', ',', '大约', '占', '到', '了', '2', '0', '%', '的', '比例', '。', '\n', '\u3000', '\u3000', '与此同时', ',', '目前', '医学', '更加', '注重', '病人', '的', '生活', '质量', ',', '对患', '各种', '疾病', '引起', '的', '疼痛', '的', '治疗', '也', '催生', '了', '新', '的', '止痛药', '市场', '。', '以', '癌症', '疼痛', '为例', ',', '\n', '\u3000', '\u3000', '据', '我国', '卫生部', '统计数据', '显示', ',', '2', '0', '世纪', '9', '0', '年代', '我国', '肿瘤', '发病率', '已', '上升', '为', '1', '2', '7', '例', '/', '1', '0', '万人', '。', '近年来', '我国', '每年', '新增', '肿瘤', '患者', '1', '6', '0', '万', '~', '1', '7', '0', '万人', ',', '死', '于', '恶性肿瘤', '人数', '达', '1', '4', '0', '万人', ',', '肿瘤', '患者', '总数', '估计', '在', '4', '5', '0', '万人', '左右', '。', '肿瘤', '患者', '中', '至少', '有', '1', '/', '3', '存在', '着', '不同', '程度', '的', '疼痛', ',', '其中', '晚期', '患者', '占', '6', '0', '%', '~', '9', '0', '%', '。', '\n', '\u3000', '\u3000', '市场', '加速', '洗牌', '\n', '\u3000', '\u3000', '由于', '止痛药', '使用', '领域', '及其', '广泛', ',', '所以', '各类', '药物', '的', '使用', '不能', '一概而论', ',', '但', '就', '医院', '处方', '板块', '分析', ',', '目前', '主要', '有', '四大', '类', '镇痛药', ',', '分别', '为', '阿片类', '镇痛药', '、', '非甾体', '类', '镇痛药', '、', '植物', '类', '镇痛药', '以及', '抗', '偏头痛', '制剂', '。', '非甾体', '类', '镇痛药', '原本', '是', '被', '寄予', '了', '厚望', ',', '在', '万络', '以及', '西乐', '葆', '等', '一批', '新型', '药物', '的', '带动', '下', '整个', '市场', '发展趋势', '非常', '喜人', '。', '1', '9', '9', '8', '年', ',', '全国', '1', '4', '个', '典型', '城市', '入网', '医院', '的', '非甾体', '抗炎药', '购药', '金额', '为', '9', '9', '0', '3', '.', '3', '万元', ',', '到', '2', '0', '0', '2', '年', '已经', '增长', '至', '1', '4', '0', '2', '2', '.', '3', '万元', '(', '见表', '1', ')', '。', '\n', '\u3000', '\u3000', '不过', '由于', '非甾体', '类', '镇痛药', '的', '安全性', '问题', ',', '其', '市场', '有', '逐渐', '下滑', '的', '趋势', ',', '而', '阿片类', '药物', '则', '有', '上升', '的', '势头', ',', '相互', '市场', '取代', '现象', '比较', '明显', '。', '以', '使用', '较', '多', '的', '癌症', '镇痛', '为例', ',', '在', '2', '0', '0', '2', '~', '2', '0', '0', '4', '年', '样本', '医院', '镇痛', '类药物', '使用', '情况', '(', '见表', '2', ')', '中', ',', '阿片类', '镇痛药', '的', '市场', '分额', '由', '2', '0', '0', '2', '年', '的', '6', '2', '.', '4', '%', '上升', '到', '2', '0', '0', '4', '年', '的', '6', '8', '.', '4', '%', '。', '而', '非甾体', '类', '镇痛药', '的', '份额', '却', '从', '2', '0', '0', '2', '年', '的', '3', '4', '.', '4', '%', '下跌', '至', '2', '0', '0', '4', '年', '的', '2', '9', '.', '2', '%', '。', '\n', '\u3000', '\u3000', '在', '阿片类', '镇痛药', '中', ',', '目前', '主要', '由曲', '马多', '、', '芬太尼', '和', '吗啡', '3', '大', '品种', '领衔', ',', '这三大', '品种', '占', '整个', '阿片类', '药品', '使用', '金额', '的', '7', '0', '%', '以上', '(', '见', '附图', ')', '。', '\n', '\u3000', '\u3000', '芬太尼', '为', '人工合成', '的', '非', '衍生物', '类', '阿片', '药片', ',', '属于', '强', '阿片类', '镇痛药', ',', 'W', 'H', 'O', '将', '它', '归入', '第三', '阶梯', '镇痛药', ',', '其', '主要', '通过', '激动', '阿片类', '受体', '(', 'μ', '受体', ')', '而', '发挥', '镇痛', '作用', ',', '止痛', '作用', '为', '相同', '剂量', '吗啡', '的', '5', '0', '~', '1', '0', '0', '倍', '。', '吗啡', '主要', '用于', '晚期', '癌症', '患者', '第三', '阶梯', '止痛', '。', '从', '市场趋势', '来看', ',', '曲马多', '增长', '后劲', '十足', ',', '该', '产品', '是', '胺', '苯环', '醇类', '人工合成', '弱', '阿片类', '药物', ',', '镇痛', '强度', '在', '同等', '剂量', '时', ',', '相当于', '吗啡', '的', '1', '/', '5', ',', '但', '明显', '强于', '其他', '非', '类固醇', '抗炎药', ',', '适用', '于', '中', '、', '重度', '癌性', '疼痛', ',', '被', 'W', 'H', 'O', '列为', '癌痛', '三', '阶梯', '止痛', '治疗', '的', '第二', '阶梯', '推荐', '药物', '。', '该药', '与', '阿片', '受体', '的', '亲和力', '比', '吗啡', '弱', '6', '0', '0', '0', '倍', ',', '基本', '不', '存在', '成瘾性', ',', '可以', '长期', '使用', ',', '因此', '在', '治疗', '剂量', '下', ',', '不', '产生', '呼吸', '抑制', ',', '不', '影响', '心血管', '功能', ',', '也', '不', '产生', '便秘', '、', '排尿', '困难', '等', '不良反应', '。', '由于', '该药', '的', '管制', '相对', '较松', ',', '除', '可以', '用于', '癌症', '疼痛', '的', '治疗', '外', ',', '还', '可以', '在', '骨关节炎', '、', '腰椎间盘', '突出', '症', '、', '肩关节', '周围', '炎', '、', '创伤', '、', '手术', '后', '疼痛', '和', '骨质疏松症', '所致', '的', '腰腿痛', '中', '使用', '。', '该类', '药', '在', '医保', '目录', '中属', '乙类', '药物', ',', '目前', '癌痛', '临床', '应用', '中多为', '缓释片', '。', '\n', '\u3000', '\u3000', '复合', '使用', '药物', '增长势头', '明显', '\n', '\u3000', '\u3000', '目前', '镇痛药', '市场', '还有', '一个', '明显', '的', '趋势', '就是', '越来越', '强调', '联合', '用药', ',', '根据', '2', '0', '0', '5', '年前', '三季度', '典型', '医院', '用药', '情况', '显示', ',', '一些', '复合', '使用', '的', '药物', '增长势头', '明显', ',', '像', '氨基', '比林', '+', '安替比林', '+', '巴比', '妥', ',', '克痛宁', '+', '曲马多', '+', '布洛芬', ',', '羟考', '酮', '+', '对乙酰氨基酚', '等', '。', '\n', '\u3000', '\u3000', '张克军', '也', '认为', ',', '鉴于', '止痛', '新药', '不断', '遭受', '安全性', '问题', ',', '复方', '用药', '将', '是', '镇痛药', '今后', '新', '产品开发', '的', '一个', '重要', '方向', ',', '一些', '新型', '的', '复方', '产品', '正', '显示', '良好', '的', '市场前景', ',', '目前', '选择', '的', '重点', '就是', '将', '一些', '原来', '在', '临床', '使用', '多年', ',', '疗效', '确切', ',', '安全性', '高', '的', '药', '组合', '在', '一起', '。', '像', '最近', '上市', '的', '氨酚', '曲马', '多片', '就是', '由', '阿片类', '和', '非甾体', '类', '使用', '最久', '的', '盐酸', '曲马多', '和', '对乙酰氨基酚', '组合', '在', '一起', '的', '复方', '产品', ',', '临床', '研究', '证实', '该药', '主要', '用于', '缓解', '中度', '及', '重度', '疼痛', ',', '起效', '迅速', ',', '镇痛', '效果', '明显', ',', '无', '成瘾性', ',', '不良反应', '相比', '其', '单方', '制剂', '和', '其他', '参比', '制剂', '明显', '更', '低', ',', '该', '产品', '2', '0', '0', '1', '年', '8', '月', '在', '美国', '由', 'F', 'D', 'A', '批准', '上市', '。', '西安', '杨森', '在', '去年', '将', '该药', '引进', '我国', ',', '目前', '正在', '力拓', '市场', '。', '鉴于', '该', '产品', '在', '我国', '无', '相关', '产权保护', ',', '河南', '帅克', '制药', '在', '国内', '企业', '中', '抢先', '仿制', '了', '这个', '产品', '。', '张克军', '透露', ',', '该', '产品', '目前', '已经', '上市', ',', '有望', '培养', '成为', '一个', '镇痛药', '的', '大', '品种', ',', '或许', '依靠', '新型', '复方', '制剂', '可以', '参与', '重新', '划分', '止痛药', '市场', '的', '格局', '。'], 'C000008')
    (['\u3000', '\u3000', '牙防组', '事件', '再起', '风波', ',', '此次', '争议', '的', '核心', '是', ',', '口腔', '用品', '认证', '办法', '的', '管理', '对象', '应该', '是', '“', '保健', '”', '品', '还是', '“', '护理', '”', '品', '。', '\n', '\u3000', '\u3000', '本报', '独家', '获悉', ',', '4', '月', '24', '日', ',', '中国', '口腔', '清洁', '护理', '用品', '工业协会', '(', '原', '牙膏', '工业协会', ',', '下称', '“', '牙膏', '协会', '”', ')', '以', '书面形式', '向', '国家', '认证', '认可', '监督管理', '委员会', '(', '下称', '“', '认监委', '”', ')', '递交', '了', '一份', '文件', ',', '称', '如果', '把', '牙膏', '纳入', '认证', ',', '将', '不利于', '企业', '的', '发展', '。', '\n', '\u3000', '\u3000', '文件', '陈述', '了', '数条', '理由', ',', '诸如', '牙膏', '企业', '的', '每个', '产品', '都', '必须', '认证', '将会', '影响', '到', '生产', '和', '销售', '的', '效率', '等等', '。', '\n', '\u3000', '\u3000', '文件', '还称', ',', '即便', '必须', '认证', ',', '也', '应该', '是', '认证', '“', '口腔', '护理', '”', '用品', ',', '而', '不是', '“', '口腔', '保健', '”', '用品', '。', '\n', '\u3000', '\u3000', '4', '月', '13', '日', ',', '认监委', '发布', '了', '《', '口腔', '保健用品', '认证', '管理', '办法', '(', '征求意见', '稿', ')', '》', '。', '\n', '\u3000', '\u3000', '自', '发布', '之', '日', '以来', ',', '围绕', '这', '两个', '词', '的', '拉锯', '始终', '没有', '停止', '。', '而', '在', '意见', '征求', '期', '过后', ',', '卫生部', '法规', '司将', '根据', '程序', '将', '这个', '办法', '发布', '成为', '部颁标准', '。', '\n', '\u3000', '\u3000', '“', '如', '不', '采用', '‘', '保健', '’', ',', '而', '采用', '‘', '护理', '’', ',', '那么', '办法', '将', '失去', '意义', '。', '”', '江苏', '雪豹', '日化', '有限公司', '的', '董事长', '童渝于', '昨日', '向', '认监委', '提交', '了', '一份', '针锋相对', '的', '建议', '。', '\n', '\u3000', '\u3000', '据', '知情', '人士', '透露', ',', '牙膏', '协会', '如此', '激烈', '反对', '的', '原因', '是', ',', '一旦', '“', '保健', '”', '认证', '推行', ',', '将会', '由', '具备', '专业', '团队', '的', '相关', '单位', '来', '担当', '。', '而', '牙膏', '协会', '属于', '原', '轻工', '系统', ',', '缺乏', '这些', '资源', '。', '\n', '\u3000', '\u3000', '“', '所以', '他们', '更', '倾向', '于用', '‘', '护理', '’', '一词', ',', '可以', '名正言顺', '地', '把', '认证', '权', '纳入', '自己', '的', '管理', '范畴', '。', '”', '\n', '\u3000', '\u3000', '相对', '于', '强调', '牙膏', '功能性', '的', '“', '保健', '”', ',', '“', '护理', '”', '一词', '在', '字面', '的', '意义', '更', '倾向', '于', '清洁', '。', '前者', '的', '主管部门', '是', '卫生部门', ',', '后者', '则', '是', '牙膏', '协会', '。', '\n', '\u3000', '\u3000', '有', '消息人士', '称', ',', '现在', '已有', '数百家', '单位', '开始', '申请', '成为', '合法', '的', '牙膏', '认证', '机构', '。', '\n', '\u3000', '\u3000', '“', '最后', '的', '认证', '机构', '已经', '基本', '成型', '。', '”', '有关', '人士', '透露', '说', ',', '这个', '即将', '浮出', '水面', '的', '机构', '与', '卫生系统', '下属', '的', '全国', '牙防组', '有着', '紧密', '的', '“', '血缘', '”', '关系', '。', '\n', '\u3000', '\u3000', '在此之前', '的', '牙防组', '事件', '中', ',', '没有', '认证', '资格', '的', '全国', '牙防组', '违规', '认证', '十多年', ',', '被', '北京', '律师', '李纲告', '上', '法庭', '。', '此后', ',', '认监委', '紧急', '启动', '认证', '程序', ',', '目前', '最后', '的', '用词', '尚', '不明朗', '。'], 'C000008')
    (['\u3000', '\u3000', '设想', '一下', ',', '如果', '某', '家', '银行', '花', '了', '大', '力气', '进行', '品牌', '建设', ',', '可', '顾客', '每每', '面对', '的', '是', '铁栅栏', '后面', '一张', '冷冰冰', '的', '脸', ',', '敷衍', '推诿', ',', '甚至', '恶语相向', ',', '他们', '自然', '很难', '相信', '这家', '银行', '所作', '的', '品牌', '承诺', ',', '也', '会', '动摇', '对', '银行', '的', '信任', '\n', '\u3000', '\u3000', '本报记者', '范松璐', '发自', '上海', '\n', '\u3000', '\u3000', '在', '一个', '金融服务', '品牌', '提升', '研讨会', '上', ',', '扬特', '品牌', '欧洲', '的', '董事长', 'TerryTyrrell', '饶有兴趣', '地', '展示', '了', '一些', '别出心裁', '的', '银行', '标志', ',', '从', '图案', '的', '设计', '中', '很', '容易', '发现', '为', '人们', '所', '熟悉', '的', '知名', '公司', '品牌', '的', '影子', ',', '比如', '麦当劳', '那个', '醒目', '的', '“', 'm', '”', '和', '苹果电脑', '缺', '了', '口', '的', '苹果', ',', '而', '类似', '可口可乐', '的', '标志', '下', ',', '索性', '写', '着', '“', 'CocaCash', '”', ',', '看到', '这些', '易于', '识别', '和', '引发', '联想', '的', '标志', ',', '台下', '观众', '发出', '一阵阵', '会心', '的', '笑声', '。', '\n', '\u3000', '\u3000', '“', '当然', ',', '这些', '银行', '标志', '只是', '我', '的', '想象', ',', '不过', ',', '目前', '在', '金融', '服务业', '领域', ',', '有没有', '像', '这', '几家', '企业', '那样', '影响', '深远', '的', '品牌', '呢', '?', '恐怕', '还', '没有', '。', '”', 'Terry', '说', '。', '在', '激烈', '的', '竞争', '环境', '中', ',', '弱势', '品牌', '可能', '会', '被', '猎食', ',', '不过', ',', '只', '知道', '掏钱', '购买', '弱势', '品牌', '、', '而', '并', '不能', '建立', '一个', '强大', '品牌', '的', '猎食', '者', '也', '未必', '能', '得到', '良好', '的', '投资', '回报', '。', '对', '现有', '的', '银行', '而言', ',', '建立', '自身', '的', '强势', '品牌', '适逢其时', ',', '而且', '相当', '重要', '。', '\n', '\u3000', '\u3000', '应求', '与众不同', '\n', '\u3000', '\u3000', '国内', '金融', '服务业', '暗流', '汹涌', '。', '2006', '年', '是', '中国', '进入', 'WTO', ',', '承诺', '开放', '金融市场', '的', '关键', '一年', ',', '外资银行', '即将', '进入', ',', '竞争', '格局', '正', '发生变化', ',', '市场', '内部', '也', '萌生', '诸多', '影响', '零售', '银行业务', '成长', '的', '因素', '—', '—', '高强度', '的', '经济', '发展', '、', '政府', '收缩', '对', '社会福利', '的', '补助', '、', '房屋', '私有', '率', '提高', '、', '人口', '日益', '老龄化', '、', '个人消费', '成为', '经济', '发展', '的', '关键', '动力', ',', '而且', '企业', '银行业务', '要', '利用', '总体性', '平衡', '来', '管理', '中小型', '企业', '贷款', '、', '开发', '收费', '产品', '。', '\n', '\u3000', '\u3000', '讲', '到', '银行', '现存', '的', '症结', ',', '人们', '的', '第一', '反应', '往往', '是', '不良贷款', '比率', '偏高', '、', '风险', '评估', '实战经验', '不足', '、', '消费性', '金融', '产品', '缺失', '、', '企业', '管理', '标准', '不够', '完备', '等等', '。', '但', '另一方面', ',', '不容忽视', '的', '是', ',', '国内', '银行', '的', '品牌', '建设', '也', '存在', '某种', '滞后', '—', '—', '鲜有', '差异化', '的', '品牌', '定位', '、', '品牌', '经营', '思维', '和', '以', '客户', '为本', '的', '鲜明形象', ',', '顾客', '感受', '到', '的', '环境', '和', '服务', '面目', '雷同', ',', '甚至', '干脆', '一模一样', '。', '扬特', '中国区', '创意', '总监', '黄鼎杰', '展示', '了', '一页', '图片', ',', '是', '某家', '知名', '商业银行', '的', '营业厅', ',', '“', '能', '看', '出来', '这', '是', '哪', '一家', '银行', '吗', '?', '”', '的确', ',', '对', '多数', '人', '来说', ',', '只能', '感觉', '似曾相识', ',', '却', '基本', '无从', '分辨', '究竟', '是', '哪', '一家', '。', '\n', '\u3000', '\u3000', '再', '看', '银行', '的', '图标', ',', '如果', '把', '具体', '的', '图案', '及', '字体', '隐', '去', ',', '会', '发现', '图标', '的', '颜色', '和', '形状', '极其', '接近', ',', '比如', '四大', '国有', '商业银行', '的', '图标', '都', '是', '圆形', '图案', '加上', '银行', '名字', '。', '“', '圆形', ',', '应该', '是', '钱币', '的', '意思', ',', '不过', '是否', '可以', '改换', '一下', '视觉', '形象', ',', '让', '自己', '更', '醒目', '些', ',', '区分', '性会', '带来', '更', '多', '机会', '。', '”', '黄鼎杰', '还', '展示', '了', '某家', '美国银行', '的', '营业厅', '照片', ',', '乍一看', '去', ',', '难以想象', '这', '居然', '会', '是', '银行', ',', '而', '更', '像', '一家', '前卫', '酒吧', '—', '—', '设计', '活泼', '明快', ',', '各种', '独特', '有趣', '的', '细节', '点缀', '夺人', '眼球', ',', '还有', '咖啡', '台', '和', '上网', '的', '电脑', ',', '“', '在', '这样', '的', '银行', '里', ',', '等待', '也', '似乎', '不', '那么', '让', '人', '心焦', '了', '—', '—', '不过', '这种', '风格', '在', '国内', '还是', '有些', '超前', ',', '可能', '很多', '人会', '不', '放心', '把', '钱', '放进去', '。', '”', '黄鼎杰', '觉得', ',', '毕竟', '大多数', '顾客', '对', '银行', '的', '期望', '还是', '以', '“', '专业', '、', '安全', '、', '权威', '”', '为主', ',', '在', '此基础', '上', ',', '如果', '适当', '加入', '更', '多', '“', '友善', '、', '亲切', '”', '的', '元素', ',', '会', '进一步', '提升', '银行', '在', '顾客', '心中', '的', '形象', '。', '比如', '在', '香港', ',', '大多数', '银行', '的', '保安', '并', '不', '穿', '制服', ',', '这些', '细节', '往往', '能', '拉近', '顾客', '的', '心理', '距离', '。', '\n', '\u3000', '\u3000', '对', '银行', '来说', ',', '通过', '识别系统', '、', '广告', '活动', '等', '方式', '来', '建立', '品牌', '构造', '是', '远远不够', '的', ',', '必须', '有', '更', '高标准', ',', '还要', '更', '多', '地', '从', '感情', '上', '联结', '顾客', ',', '建立', '强烈', '的', '认同感', '。', '银行业', '正在', '掀起', '一场', '争取', '客户', '心智', '的', '战役', '。', '\n', '\u3000', '\u3000', '别', '让', '冰山', '倾覆', '\n', '\u3000', '\u3000', 'Terry', '展示', '了', '一幅', '冰山', '的', '图片', ',', '在', '他', '看来', ',', '人们', '从', '外面', '感受', '一家', '企业', ',', '就', '如同', '看到', '露出', '海面', '的', '冰山', ',', '其中', '包括', '品牌', '的', '定位', '、', '个性', '、', '表述', '等', '方面', ',', '而', '水面', '以下', '深藏不露', '的', '更', '大部分', '则', '是', '企业', '自身', '对内', '的', '战略', '、', '愿景', '、', '价值', '和', '激励', ',', '这些', '是', '令', '品牌', '长久', '保持', '活力', '的', '源泉', ',', '作用', '更为', '关键', ',', '正', '所谓', '“', '吸引', '人', '的', '真实', '”', '(', 'com', ' ', 'p', ' ', 'e', ' ', 'llin', ' ', 'g', ' ', 'tru', ' ', 'th', ')', '。', '露出', '水面', '的', '冰山', '可以', '吸引', '外界', '注意', ',', '但', '倘若', '缺少', '真实', '的', '根基', ',', '冰山', '终究', '难逃', '倾覆', '的', '命运', '。', '\n', '\u3000', '\u3000', '很多', '企业', '在', '努力', '建立', '和', '管理', '品牌', '的', '时候', ',', '不觉', '间会犯', '一个', '错误', ',', '只', '把', '注意力', '聚焦', '在', '顾客', '身上', ',', '而', '忽略', '了', '对', '员工', '的', '沟通', '、', '了解', '和', '重视', '。', '\n', '\u3000', '\u3000', '“', '如果', '不能', '把', '员工', '培养', '成', '忠实', '的', '内部', '品牌', '拥护者', ',', '那', '就', '太', '可惜', '了', '。', '”', '扬特', '中国区', '董事', '总经理', 'Debora', ' ', 'Chatwin', ' ', '认为', ',', '前线', '员工', '应该', '成为', '真正', '的', '品牌', '大使', ',', '发挥', '独特', '能力', ',', '和', '顾客', '建立', '良好', '关系', ',', '给', '公司', '带来', '利润', ',', '自己', '也', '得到', '更大', '的', '满足', '。', '\n', '\u3000', '\u3000', '员工', '投入', '度', '对', '公司', '的', '回报', '影响', '不可', '忽视', ',', '《', '星期日', '泰晤士报', '》', '在', '2002', '年', '一项', '“', '最佳雇主', '”', '调查', '中', '也', '指出', ',', '获得', '雇员', '好评', '的', '公司', '股价', '和', '股息', '收益', '增幅', '达', '25', '%', ',', '远高于', '同期', '英国', '全股', '指数', '6.3%', '的', '上涨幅度', '。', '再', '回到', '国内', ',', '盖勒', '普', '2004', '年', '进行', '了', '一项', '调查', ',', '将', '工作', '的', '人们', '分为', '“', '投入', '型', '”', '、', '“', '不', '投入', '型', '”', '、', '“', '积极', '投入', '型', '”', '三种', '类型', ',', '结果显示', ',', '有', '68%', '的', '人', '属于', '“', '不', '投入', '型', '”', ',', '对', '工作', '没有', '激情', ',', '觉得', '工作', '与', '自己', '个人', '关系不大', ',', '工作', '时', '几乎', '形同', '梦游', '。', '粗暴', '、', '冷漠', '、', '不', '满足', '的', '员工', '会', '伤及', '客户', '和', '公司', '自身', ',', '身处', '服务业', '的', '银行', '更是如此', '。', '\n', '\u3000', '\u3000', '设想', '一下', ',', '如果', '某', '家', '银行', '花', '了', '大', '力气', '进行', '品牌', '建设', ',', '可', '顾客', '每每', '面对', '的', '是', '铁栅栏', '后面', '一张', '冷冰冰', '的', '脸', ',', '敷衍', '推诿', ',', '甚至', '恶语相向', ',', '他们', '自然', '很难', '相信', '这家', '银行', '所作', '的', '品牌', '承诺', ',', '也', '会', '动摇', '对', '银行', '的', '信任', '。', '许多', '国有', '商业银行', '在', '此', '方面', '可能', '需要', '多一些', '反思', '。', '“', '领导层', '的', '重视', '是', '使得', '员工', '与', '品牌', '紧密', '联结', '在', '一起', '的', '重要', '因素', '。', '”', 'Terry', '表示', '。', '\n', '\u3000', '\u3000', '“', '员工', '联结', '”', '修固', '品牌', '根基', '\n', '\u3000', '\u3000', '银行', '的', '顾客', '细分', '、', '产品开发', '、', '风险管理', '都', '需要', '高水平', '的', '管理者', '和', '职员', ',', '有些', '人才', '要', '从', '外部', '市场', '引进', '并', '整合', '到', '银行', '的', '运营', '和', '文化', '中', ',', '这', '一点', '上', ',', '超越', '金钱', '奖励', '而', '创造', '积极向上', '的', '企业', '文化', '可能', '更为', '长远', '。', '\n', '\u3000', '\u3000', '渣打银行', '在', '员工', '联结', '方面', '的', '努力', '产生', '了', '一定', '的', '效果', ',', '面对', '资源', '收缩', '、', '员工', '士气', '开始', '低落', '的', '现象', ',', '银行', '开展', '了', '名为', '“', '树立', '典范', '”', '(', 'TaketheLead', ')', '的', '内部', '沟通', '计划', ',', '希望', '将', '所有', '人力资源', '和', '传播', '活动', '加以', '整合', ',', '清晰', '传递', '管理层', '的', '承诺', ',', '对', '员工', '进行', '积极', '有效', '的', '奖励', ',', '使', '他们', '重获', '工作', '的', '信心', '和', '自豪感', ',', '表现', '自己', '的', '领导', '才能', '。', '\n', '\u3000', '\u3000', '计划', '的', '代言人', '是', '一个', '活泼', '的', '卡通人物', '“', 'StarMan', '”', '(', '星仔', ')', ',', '它', '的', '各种', '形象', '代表', '了', '各种', '“', '树立', '典范', '”', '的', '行动', ',', '力求', '将', '抽象', '鼓励', '变成', '具体', '榜样', '。', '渣打银行', '向', '高级', '经理', '们', '发放', '一套', '介绍', '计划', '的', '录像带', '和', '新', '的', '员工', '通讯录', ',', '贯彻', '名为', '“', 'JustSayThankYou', '”', '(', '说句', '谢谢您', ')', '的', '员工', '表扬', '计划', ',', '用', '有', '“', '星', '”', '形象', '的', '卡片', '给', '努力', '工作', '的', '同事', '写', '谢谢', ',', '公司', '刊物', '也', '更名', '为', '“', 'TheLeader', '”', '(', '典范', ')', '。', '另外', ',', '银行', '在', '对外', '的', '信息', '传递', '中', '也', '采用', '很多', '“', '星仔', '”', '标志', ',', '这', '一切', '都', '使', '员工', '对', '整个', '计划', '的', '印象', '不断', '深化', ',', '并', '逐步', '加强', '认同感', '。', '最终', ',', '顾客', '满意度', '显著', '上升', ',', '员工', '流失', '减少', ',', '对', '品牌', '内涵', '的', '理解', '更深', '。', '\n', '\u3000', '\u3000', '“', '员工', '联结', '”', '不', '只是', '让', '大伙儿', '了解', '正在', '发生', '的', '事情', ',', '更要', '得到', '他们', '的', '投入', '和', '参与', ',', '与', '品牌', '之间', '产生', '一种', '紧密', '的', '情感', '。', '这样', '不仅', '能', '使', '冰山', '露出', '水面', '的', '部分', '看上去', '很', '美', ',', '深埋在', '水下', '、', '不易', '为', '人', '所', '见', '的', '真实', '根基', '也', '会', '更加', '牢固', ',', '做到', '这些', ',', '依靠', '银行', '自身', '长久', '的', '修为', '。'], 'C000008')
    (['\u3000', '\u3000', '杭州', '\u3000', '\u3000', '时间', ':', '2005', '年', '10', '月', '9', '日', '-', '11', '日', ' ', ' ', '9', ':', '00', '-', '18', ':', '00', '\u3000', '\u3000', '地址', ':', '杭州', '华辰', '国际饭店', ' ', '四层', '会议厅', '(', '杭州', '平', '海路', '27', '号', ')', '\u3000', '\u3000', '南京', '\u3000', '\u3000', '时间', ':', '2005', '年', '10', '月', '17', '日', '-', '19', '日', ' ', ' ', ' ', '9', ':', '00', '-', '18', ':', '00', '\u3000', '\u3000', '地址', ':', '南京', '希尔顿', '国际', '大酒店', ' ', '二层', 'A', '厅', '(', '南京', '中山东路', '319', '号', ')', '\u3000', '\u3000', '上海', '\u3000', '\u3000', '时间', ':', '2005', '年', '10', '月', '21', '日', '-', '23', '日', ' ', '9', ':', '00', '-', '18', ':', '00', '\u3000', '\u3000', '地址', ':', '上海图书馆', ' ', '第一', '展厅', '(', '上海市', '淮海中路', '1555', '号', ')', '\u3000', '\u3000', '济南', '\u3000', '\u3000', '时间', ':', '2005', '年', '10', '月', '27', '日', '-', '29', '日', ' ', '9', ':', '00', '-', '18', ':', '00', '\u3000', '\u3000', '地址', ':', '山东', '大厦', ' ', '一层', '多功能厅', '(', '济南市', '马鞍山', '路', '2', '-', '1', '号', ')', '\u3000', '\u3000', '北京', '\u3000', '\u3000', '时间', ':', '2005', '年', '11', '月', '1', '日', '-', '3', '日', ' ', '9', ':', '00', '-', '18', ':', '00', '\u3000', '\u3000', '地址', ':', '北京', '港澳', '中心', ' ', '二层', '宴会', '大厅', '(', '北京', '朝阳门', '北大街', '2', '号', ')', '\u3000', '\u3000', '\u3000', '\u3000', '拍', ' ', '卖', ' ', '预', ' ', '展', '\u3000', '\u3000', '时间', ':', '2005', '年', '11', '月', '23', '日', '-', '25', '日', ' ', ' ', ' ', '9', ':', '00', '-', '20', ':', '00', '\u3000', '\u3000', '地点', ':', '北京', '亚洲', '大酒店', '(', '北京', '工体', '北路', '新中', '西街', '8', '号', ')', '\u3000', '\u3000', '拍', ' ', ' ', ' ', ' ', ' ', '卖', '\u3000', '\u3000', '时间', ':', '\u3000', '\u3000', '2005', '年', '11', '月', '26', ' ', ' ', ' ', '上午', '9', ':', '30', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', '2005', '年', '11', '月', '26', ' ', ' ', '下午', '13', ':', '00', '\u3000', '\u3000', '中国书画', '(', '一', ')', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', '中国书画', '(', '二', ')', '\u3000', '\u3000', '2005', '年', '11', '月', '27', ' ', ' ', ' ', '上午', '9', ':', '30', '\u3000', '\u3000', '中国书画', '(', '三', ')', ' ', ' ', '-', '-', '《', '当代', '中国画', '风貌', '》', '\u3000', '\u3000', '2005', '年', '11', '月', '27', ' ', ' ', '下午', '13', ':', '00', '\u3000', '\u3000', '中国', '油画', '\u3000', '\u3000', '地点', ':', '北京', '亚洲', '大酒店', ' ', '三层', '多功能厅', '(', '北京', '工体', '北路', '新中', '西街', '8', '号', ')', '\u3000', '\u3000', '搜狗', '(', 'www', '.', 'sogou', '.', 'com', ')', '搜索', ':', '“', '书画', '”', ',', '共', '找到', '2', ',', '095', ',', '334', '\n', '个', '相关', '网页', '.', '\x00', '\x00'], 'C000023')
    (['\u3000', '\u3000', '新华网', '深圳', '3', '月', '3', '日电', '(', '记者', '贾文军', ')', '全国', '拳击', '锦标赛', '3', '日', '在', '深圳市', '龙岗', '体育中心', '拉开战幕', ',', '在', '接下来', '的', '一周', '里', ',', '来自', '全国', '各地', '的', '200', '多名', '拳击', '健儿', '将', '在', '这里', '展开', '角逐', '。', '\n', '\n', '\u3000', '\u3000', '本次', '锦标赛', '由', '国家体育总局', '拳击', '跆拳道', '运动', '管理中心', '主办', '。', '比赛', '设置', '了', '51', '公斤', '、', '57', '公斤', '、', '64', '公斤', '、', '75', '公斤', '和', '91', '公斤', '5', '个', '级别', ',', '全国', '各地', '共有', '45', '支', '代表队', '参赛', '。', '\n', '\n', '\u3000', '\u3000', '此前', ',', '中国', '拳击', '队', '已经', '在', '深圳', '进行', '了', '3', '个', '月', '的', '冬训', '。', '国家体育总局', '拳击', '跆拳道', '运动', '管理中心', '副', '主任', '崔', '富国', '表示', ',', '要', '通过', '这次', '比赛', '来', '检验', '冬训', '的', '成果', ',', '也', '要', '根据', '比赛', '成绩', '为', '2008', '年', '北京', '奥运会', '选拔', '优秀人才', '。', '\n'], 'C000014')
    (['\u3000', '\u3000', '中广网', '5', '月', '9', '日', '广州', '图库', '消息', '(', '记者', '何伟奇', ' ', '通讯员', '仇文确', ')', '据', '广东', '肇庆', '图库', '旅游', '部门', '统计', ',', '“', '五一', '”', '黄金周', '到', '肇庆', '各地', '主要', '旅游', '景区', '的', '游客', '人数', '达', '106', '万人次', ',', '与', '去年', '同期相比', '增长', '16%', ',', '其中', '城市', '接待', '旅游者', '人数', '为', '55.95', '万人次', ',', '同比', '增长', '10.2%', ',', '旅游', '收入', '2.09', '亿元', ',', '同比', '增长', '12.4%', '。', '\n', '\u3000', '\u3000', ' ', '\n', '\n', '\n', '\n', '\n', '\n', '\n', '\u3000', '\u3000', '\u3000', '“', '五一', '”', '黄金周', '肇庆', '鼎湖山', '举行', '“', '山泉', '泼水节', '”', '\n', '\u3000', '\u3000', '“', '五一', '”', '黄金周', '期间', ',', '七星岩', '图库', '推出', '的', '“', '十里', '走单骑', '”', '自行车', '环湖', '游', '、', '鼎湖山', '“', '山泉', '泼水节', '”', '、', '德庆', '醇正', '岭面', '古迹', '游', '、', '封开', '萝筐', '节', '、', '梦多奇', '溶洞', '、', '怀集', '燕峰峡', '温泉', '漂流', '、', '广宁', '竹海', '美食', '、', '四', '会', '造纸', '村', '访古', '、', '高', '要', '生态园', '寻梦', '等', '活动', '让', '游客', '感受', '到', '肇庆', '千里', '旅游', '走廊', '旅游', '“', '天天', '有', '新意', '、', '日日', '景', '不同', '”', '的', '休闲', '旅游', '新体验', '。', '\n', '\u3000', '\u3000', '\n', '\n', '\u3000', '\u3000', '\u3000', '\u3000', '肇庆', '千里', '旅游', '走廊', '如诗如画', '\n', '\u3000', '\u3000', '今年', '肇庆市', '不断完善', '旅游', '配套', '设施', '建设', ',', '在', '千里', '旅游', '走廊', '上', '新', '增设', '了', '多个', '一目了然', '的', '景区', '指引', '牌', ',', '为', '自驾车', '旅游', '人士', '提供', '了', '清晰', '的', '指引', '。', '此外', '还', '加强', '了', '旅游', '安全', '生产', '管理', '和', '规范', '旅游', '服务质量', '管理', ',', '推出', '了', '旅游', '志愿者', '服务', ',', '为', '到达', '景区', '的', '游客', '免费', '提供方便', '指引', ',', '受到', '众多', '中外', '旅游者', '的', '欢迎', '。', '\n', '\u3000', '\u3000', '来源', ':', '中国', '广播网'], 'C000016')
    (['\n', '\u3000', '\u3000', '皇帝', '“', '金口', '”', '吓', '走', '奇才', '\n', '\u3000', '\u3000', '詹姆斯', '绝对', '全能', ',', '能', '突破', '、', '能', '投篮', '、', '能', '运球', '、', '能', '传球', ',', '还', '能', '…', '…', '用', '嘴', '赢得', '比赛', '。', '在', '骑士队', '114', '比', '113', '战胜', '奇才队', '以', '总比分', '4', '比', '2', '晋级', '东区', '半决赛', '的', '比赛', '中', ',', '詹姆斯', '就', '施展', '了', '一回', '他', '的', '嘴', '上', '功夫', ',', '仅', '只言片语', '就', '说', '得', '阿里', '纳斯罚', '输', '了', '比赛', '。', '刚刚', '在', '联盟', '里', '混', '了', '三年', '的', '詹姆斯', ',', '已经', '开始', '向伯德', '、', '米勒', '等', '“', '口技', '”', '出众', '的', '老前辈', '看齐', '了', '。', '\n', '\u3000', '\u3000', '现场', ' ', '一', '张嘴', '战败', '一', '双手', '\n', '\u3000', '\u3000', '阿里', '纳斯有', '一双', '投手', '的', '手', ',', '这', '双手', '可以', '让', '他', '投中', '三分', '线', '两米', '开外', '的', '三分球', ',', '可以', '让', '他', '在', '对', '骑士队', '的', '生死', '大战', '上', '独得', '36', '分', '。', '然而', '阿里', '纳斯', '没有', '想到', ',', '当', '这', '双', '可以', '把', '罚球', '命中率', '控制', '在', '80', '%', '以上', '的', '手', '遭遇', '詹姆斯', '宽', '而', '厚', '的', '双唇', '时', ',', '竟然', '抖', '得', '连', '一个', '球', '也', '罚', '不进', '。', '\n', '\u3000', '\u3000', '是', '阿里', '纳斯', '的', '手', '葬送', '了', '奇才队', ',', '还是', '从', '詹姆斯', '唇间', '吐出', '的', '只言片语', '成就', '了', '骑士', '?', '\n', '\u3000', '\u3000', '一切', '应该', '从', '比赛', '最后', '两秒', '说起', '。', '当时', ',', '得到', '球', '的', '阿里', '纳斯', '没有', '选择地', '在', '三分', '线', '两米', '开外', '起跳', '投篮', '。', '球', '出手', '后', ',', '阿里', '纳斯', '的', '双眼', '一直', '盯', '着', '皮球', '在', '空中', '飞行', '的', '轨迹', ',', '当球', '进筐', '的', '一刹那', ',', '阿里', '纳斯', '几乎', '和', '全场', '观众', '的', '惊呼', '声', '同步', '举起', '双手', '。', '这', '是', '他', '对', '这', '双手', '的', '感谢', ',', '是', '它们', '让', '奇才队', '出现', '了', '一丝', '生', '的', '希望', '。', '或许', ',', '当时', '的', '阿里', '纳斯', '已经', '开始', '认为', '胜利', '女神', '在', '这', '一天', '是', '站', '在', '他们', '这边', '的', '。', '\n', '\u3000', '\u3000', '可', '一切', '并', '不', '顺利', ',', '阿里', '纳斯', '的', '最后', '一投', '好像', '耗尽', '了', '他', '的', '神奇', '。', '在', '加时赛', '里', ',', '骑士队', '的', '防守', '让', '他', '一分', '未得', '。', '直到', '比赛', '还', '剩', '15', '秒', ',', '休斯', '对', '阿里', '纳斯', '犯规', ',', '后者', '才', '获得', '了', '两次', '轻易', '得分', '的', '罚球', '机会', '。', '而', '这时', ',', '奇才队', '领先', '一分', '。', '\n', '\u3000', '\u3000', '本赛季', '罚球', '命中率', '高达', '82%', '的', '阿里', '纳斯', '走上', '了', '罚球线', ',', '在', '习惯性', '的', '将', '球', '绕身', '三周', '之后', ',', '他', '的', '第一', '罚', '并', '没有', '罚中', '。', '手感', '还', '没有', '恢复', ',', '阿里', '纳斯', '深吸', '了', '一口气', '。', '\n', '\u3000', '\u3000', '就', '在', '这时', ',', '詹姆斯', '走', '到', '阿里', '纳斯', '身边', ',', '拍', '着', '对方', '的', '胸口', ',', '低着头', '轻轻地', '说道', ':', '“', '如果', '你', '连', '第二', '罚', '也', '错失', '了', ',', '你', '知道', '谁', '会', '来', '终结', '比赛', '。', '”', '在', '之前', '第三场', '和', '第五场', '的', '较量', '中', ',', '骑士队', '均', '以', '一分', '优势', '险胜', ',', '而且', '都', '是', '由', '詹姆斯', '在', '最后', '时刻', '强攻', '上篮', '投中', '制胜球', '。', '\n', '\u3000', '\u3000', '阿里', '纳斯', '的', '表情', '变得', '很', '凝重', ',', '而', '他', '的', '罚篮', '准备', '动作', '也', '发生', '了', '改变', '。', '他', '第二次', '罚球', '前', ',', '并', '没有', '在', '腰间', '绕球', ',', '而是', '直接', '罚篮', '。', '这是', '平时', '的', '阿里', '纳斯', '绝不会', '做', '的', '事情', '。', '阿里', '纳斯', '心急', '了', ',', '方寸大乱', '!', '结果', ',', '第二', '罚球', '偏得', '比', '第一', '罚时', '还', '离谱', '。', '骑士队', '反攻', '的', '机会', '来', '了', '。', '\n', '\u3000', '\u3000', '战术', ' ', '皇帝', '发话', ' ', '小兵', '下手', '\n', '\u3000', '\u3000', '詹姆斯', '真的', '履行', '了', '对', '阿里', '纳斯', '的', '“', '诺言', '”', ',', '在', '接下来', '的', '进攻', '中', '对', '奇才队', '进行', '了', '绝杀', '吗', '?', '没有', '。', '完成', '绝杀', '的', '是', '阿里', '纳斯', '根本', '想不到', '的', '达蒙', '·', '琼斯', '。', '应该', '说', ',', '詹姆斯', '的话', '完全', '是', '一次', '攻心', '战术', '。', '\n', '\u3000', '\u3000', '在', '阿里', '纳斯罚', '失两球', '后', ',', '骑士队', '随即', '叫', '了', '暂停', '。', '主帅', '布朗', '布置', '了', '他', '这场', '比赛', '的', '最后', '一个', '战术', ':', '詹姆斯', '主攻', ',', '休斯', '接应', ',', '如果', '休斯', '还', '没有', '机会', ',', '球', '就', '交给', '琼斯', '投', '。', '\n', '\u3000', '\u3000', '比赛', '再次', '开始', ',', '詹姆斯', '一', '接到', '球', ',', '阿里', '纳斯', '和', '丹尼尔斯', '马上', '跟', '出', '三分', '线', ',', '对', '詹姆斯', '进行', '包夹', ',', '奇才队', '显然', '不', '希望', '再', '重蹈', '前', '几场', '的', '覆辙', ',', '因此', '立刻', '对', '其', '采取', '包夹', '战术', '。', '已经', '知道', '如何', '应对', '的', '“', '小', '皇帝', '”', '将球', '传给', '休斯', ',', '而', '在', '一旁', '防守', '琼斯', '的', '巴特勒', '立刻', '选择', '了', '放弃', '对', '琼斯', '的', '防守', ',', '去', '盯防', '休斯', '。', '而', '此时', '琼斯', '在', '底线', '无人', '防守', ',', '休斯', '立即', '传球', ',', '琼斯', '一击', '命中', '。', '\n', '\u3000', '\u3000', ' ', '\n', '“', '很', '显然', ',', '胜利', '女神', '今晚', '并', '没有', '站', '在', '我们', '这边', '。', '你', '能', '想象', '吗', '?', '一个', '罚球', '命中率', '在', '80%', '的', '投手', ',', '在', '最后', '时刻', '竟然', '两罚', '不', '中', '。', '我', '只能', '说', ',', '今晚', '太', '糟糕', '了', '。', '”', '比赛', '已经', '结束', ',', '阿里', '纳斯', '还', '在', '想着', '刚才', '发生', '的', '事情', '。', '\n', '\u3000', '\u3000', '历史', ' ', '“', '邮差', '周日', '不', '送信', '”', '\n', '\u3000', '\u3000', '詹姆斯', '并', '不是', '第一个', '使用', '攻心', '战术', '帮助', '球队', '获胜', '的', '人', '。', '这', '其中', '最', '经典', '的', '莫过于', '原', '公牛队', '著名', '球星', '皮蓬', '对', '马龙', '说', '的', '那句', '“', '邮差', '周日', '不', '送信', '”', ',', '简直', '就是', '詹姆斯', '对', '阿里', '纳斯', '的', '翻版', '。', '\n', '\u3000', '\u3000', '1996', '-', '97', '赛季', '公牛', '与', '爵士', '总决赛', '第六场', ',', '那', '是', '一个', '星期天', '。', '两支', '球队', '杀得', '难解难分', ',', '终场', '前', '35', '秒', '战成', '82', '比', '82', '平', '。', '马龙', '在', '最后', '关头', '获得', '罚球', '机会', ',', '但', '站', '在', '一边', '的', '皮蓬', '对', '绰号', '“', '邮差', '”', '的', '马龙', '说', ':', '“', '星期天', '邮差', '不', '送信', '。', '”', '一句', '话', '让', '马龙', '“', '心惊胆战', '”', ',', '结果', '终场', '前', '9.2', '秒', '居然', '两次', '关键', '罚球', '砸', '筐', '而', '出', '。', '\n', '\u3000', '\u3000', '而', '此后', '“', '飞人', '”', '乔丹', '在', '下', '一', '回合', '进攻', '时', ',', '一个', '胯下', '运球', ',', '突然', '急停', '并', '向', '后撤', '步', ',', '一记', '稳稳', '的', '跳投', '随着', '终场哨', '响', '飞入', '篮筐', ',', '公牛队', '84', '比', '82', '两分', '险胜', '。', '这一球', '也', '是', '近', '20', '年来', 'NBA', '总决赛', '中', '惟一', '一个', '真正', '的', '压哨', '绝杀', '球', '。', '\n', '\u3000', '\u3000', '“', '口技', '大师', '”', ' ', '各有', '绝活', '\n', '\u3000', '\u3000', '用', '言语', '干扰', '对手', '心态', ',', '从', '精神', '上', '击败', '对手', '的', '情况', '在', 'NBA', '的', '赛场', '上', '很', '普遍', ',', '包括', '伯德', '、', '乔丹', '、', '米勒', '在内', '的', '一批', '天皇巨星', '都', '会', '利用', '这', '招来', '打击', '对手', '的', '自信心', '。', '然而', '每位', '巨星', '运用', '“', '口技', '”', '的', '特点', '却', '各不相同', '。', '\n', '\u3000', '\u3000', '伯德', ' ', '先知', '型', '\n', '\u3000', '\u3000', '伯德', '喜欢', '对', '某个', '事件', '进行', '“', '预测', '”', ',', '再', '把', '他', '“', '预测', '”', '的', '结果', '告诉', '对手', ',', '最后', '用', '自己', '的', '实力', '将', '他', '的', '“', '预言', '”', '实现', '。', '\n', '\u3000', '\u3000', '“', '我要', '在', '这里', '进', '三分', '送', '你们', '回家', '。', '”', '—', '—', '伯德', '在', '一场', '比赛', '的', '最后', '一次', '进攻', '前', '指着', '三分', '线外', '的', '一块', '地板', '对', '对手', '说', ',', '当时', '拥有', '进攻', '权', '的', '凯尔特人', '队', '与', '对手', '平分', '。', '结果', '界外球', '开出', '后', ',', '伯德', '真的', '在', '那里', '接球', '投进', '压哨', '三分', ',', '赢下', '比赛', '。', '\n', '\u3000', '\u3000', '“', '你们', '决定', '谁', '要', '拿', '第二名', '了', '吗', '?', '”', '—', '—', '1986', '年', '全明星', '三分球', '大赛', '前', ',', '伯德', '一进', '休息室', '就', '问', '所有', '参赛者', '。', '伯德', '最终', '夺得', '了', '那届', '三分', '大赛', '的', '冠军', '。', '\n', '\u3000', '\u3000', '乔丹', ' ', '显摆', '型', '\n', '\u3000', '\u3000', '乔丹', '喜欢', '向', '所有人', '炫耀', '自己', '的', '超人', '实力', ',', '因此', ',', '使用', '“', '口技', '”', '也', '就', '变成', '了', '他', '向', '对手', '显摆', '的', '工具', '。', '在', '他', '使用', '这', '招时', ',', '完全', '是', '一副', '上帝', '对', '凡人', '训诫', '的', '模样', '。', '\n', '\u3000', '\u3000', '“', '你', '投', '呀', ',', '我', '让', '你', '投', '…', '…', '投呀', '!', '”', '—', '—', '乔丹', '在', '防守', '时', '最常', '说', '的话', ',', '通常', '情况', '下', '对手', '都', '会', '投篮不中', '。', '\n', '\u3000', '\u3000', '“', '加油', ',', '你', '差点', '就', '守住', '我', '了', '。', '”', '—', '—', '乔丹', '在', '进攻', '得手', '之后', '最常', '说', '的话', '。', '\n', '\u3000', '\u3000', '姚明', ' ', '\n', '努力', '型', '\n', '\u3000', '\u3000', '别以为', '母语', '是', '汉语', '的', '姚明', '不会', '使用', '“', '口技', '”', '。', '在', 'NBA', '征战', '了', '三个', '赛季', '的', '姚明', '融入', 'NBA', '是', '全方位', '的', ',', '在', '口技', '方面', '虽然', '不比', '之前', '几位', '大师', ',', '但', '也', '有', '上乘之作', '。', '\n', '\u3000', '\u3000', '“', '我要', '打得', '你', '把', '护齿', '都', '吞下去', '。', '”', '—', '—', '2005', '年', '2', '月', '10', '日', ',', '在', '火箭队', '105', '比', '92', '战胜', '公牛队', '的', '比赛', '中', ',', '姚明', '对', '公牛队', '中锋', '钱德勒', '说', '。', '在', '说完', '这句', '话', '后', ',', '姚明', '在', '对手', '头上', '连得', '6', '分', '。', '是', '役', ',', '他', '10', '投', '9', '中', '砍', '下', '21', '分', '。', '\n', '\u3000', '\u3000', '“', '口技', '对决', '”', '米勒', '太嫩', '\n', '\u3000', '\u3000', '使用', '“', '口技', '”', '攻击', '对手', ',', '并', '不是', '百分之百', '能', '成功', '的', '。', '在', 'NBA', '的', '历史', '中', ',', '经常', '使用', '“', '口技', '”', '的', '雷杰', '·', '米勒', '就', '碰到', '过', '使用', '“', '口技', '”', '得到', '反', '效果', '的', '事情', ',', '因为', '他', '攻击', '的', '对象', '是', '心理素质', '超强', '且', '更', '擅长', '“', '口技', '”', '的', '伯德', '。', '\n', '\u3000', '\u3000', '在', '米勒', '的', '新秀', '赛季', ',', '年轻', '的', '米勒', '在', '步行者队', '的', '主场', '第一次', '碰到', '伯德', '。', '当时', '步行者队', '落后', '两分', ',', '伯德', '获得', '罚球', '机会', '。', '米勒', '随即', '向伯德', '发出', '“', '嘿', '!', '嘿', '!', '”', '的', '干扰', '声', '。', '“', '你', '没', '开玩笑', '吧', ',', '菜鸟', '?', '”', '伯德', '对', '米勒', '说', ',', '然后', '从容', '地', '罚进', '一', '球', '。', '当伯德', '再次', '得到', '球时', ',', '他', '又', '说', ':', '“', '菜鸟', ',', '我', '告诉', '你', ',', '我', '是', '现在', '联盟', '里', '最', '顶尖', '的', '投手', ',', '全', 'NBA', '!', '知道', '吗', '?', '你', '还有', '什么', '想', '说', '的', '吗', '?', '”', '接着', ',', '伯德', '又', '罚进', '一', '球', '。', '“', '我', '当时', '真是', '蠢到', '十八层', '地狱', '去', '了', '。', '”', '米勒', '在', '自己', '的', '回忆录', '中', '提到', '这', '段', '往事', '时', ',', '评价', '自己', '当时', '的', '表现', '说', '。'], 'C000014')
    (['\n', '【', '倾城', '之恋', '】', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', ' ', '1984', '年', '香港', '邵氏', '公司出品', '\n', '倾城', '之恋', '\n', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', ' ', '到处', '都', '是', '传奇', ',', '可', '不见得', '有', '这么', '圆满', '的', '收场', '。', '胡琴', '咿咿呀呀', '拉着', ',', '在', '万盏', '灯火', '的', '夜晚', ',', '拉过来', '又', '拉', '过去', ',', '说', '不尽', '的', '苍凉', '的', '故事', '—', '—', '不问', '也罢', '!', '---', '【', '倾城', '之恋', '】', '\n', '出品', ':', '邵逸夫', '原著', ':', '张爱玲', '改编', ':', '蓬草', '美术', ':', '区丁平', '摄影', ':', '何东尼', '作曲', ':', '林敏怡', '作词', ':', '林敏聪', '演唱', ':', '汪明荃', '片长', ':', '95min', '语言', ':', '粤语', '/', '普通话', '外文', '别名', ':', 'Love', ' ', 'in', ' ', 'a', ' ', 'FallenCity', '(', '1984', ')', '副', '导演', ':', '关锦鹏', '、', '曹建南', '导演', ':', '许鞍华', '主演', ':', '周润发', '&', 'nbsp', ';', ' ', '饰', '&', 'nbsp', ';', ' ', '范柳原', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', ' ', '缪骞', '人', '&', 'nbsp', ';', ' ', '饰', '&', 'nbsp', ';', ' ', '白流苏', '获奖', ':', '第', '25', '届', '金马奖', '最佳', '服装设计', ' ', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', ' ', '第', '4', '届', '香港电影', '金像奖', '最佳', '音乐', '\n', '【', '剧情简介', '】', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', ' ', '本片', '改编自', '张爱玲', '的', '同名', '原著', '小说', ',', '是', '一部', '具有', '相当', '怀旧', '色彩', '的', '爱情故事', ',', '讲述', '一个', '城市', '(', '香港', ')', '的', '陷落', ',', '是', '为了', '成全', '范柳原', '(', '周润发', ')', '和', '白流苏', '(', '缪骞', '人', ')', '的', '爱情', '。', '导演', '许鞍华', '捕捉到', '了', '男女之间', '那种', '似假', '还', '真的', '微妙', '感情', ',', '但', '对白', '有所', '拘紧', ',', '局限', '在', '原著', '小说', '中', ',', '有', '欠', '挥洒自如', '。', '本片', '的', '情节', '发展', '为', '前后', '二', '部分', ',', '前半部', '描写', '离婚', '多年', '的', '白流苏', '在', '上海', '的', '娘家', '饱爱', '兄嫂', '的', '讽刺', '欺凌', ',', '后半部', '白流苏', '到', '了', '香港', ',', '跟', '风流', '浪子', '周润发', '展开', '了', '拉锯', '式', '的', '爱情', '。', '缪演', '得', '相当', '敏感', '而', '细腻', ',', '把', '一个', '不错', '的', '上海', '女子', '塑造', '得', '相当', '有', '味道', ',', '而周', '也', '卖弄', '了', '他', '的', '俊雅', '潇洒', '。', '幸而', '导演', '掌握', '了', '对白', '独有', '的', '尖刻', '嘲讽', ',', '重现', '了', '香港', '四十年代', '的', '风情', '。', '上', '一页', '&', 'nbsp', ';', '[', '1', ']', '&', 'nbsp', ';', '[', '2', ']', '&', 'nbsp', ';', '[', '3', ']', '&', 'nbsp', ';', '[', '4', ']', '&', 'nbsp', ';', '[', '5', ']', '&', 'nbsp', ';', '[', '6', ']', '&', 'nbsp', ';', '[', '7', ']', '&', 'nbsp', ';', '[', '8', ']', '&', 'nbsp', ';', '[', '9', ']', '&', 'nbsp', ';', '下', '一页', '&', 'nbsp', ';'], 'C000023')
    (['\u3000', '\u3000', '时报讯', ' ', '昨天', '是', '五一', '黄金周', '的', '最后', '一天', ',', '游客', '们', '纷纷', '踏上', '了', '回家', '的', '旅程', ',', '宁波', '各大', '景区', '全面', '“', '退烧', '”', '。', '而', '此时', ',', '宁波', '的', '各大', '餐饮', '商场', '负责人', '却', '喜笑颜开', '。', '\n', '\u3000', '\u3000', '宁波市', '假日办', '统计数据', '显示', ',', '7', '天', '时间', '内', ',', '宁波市', '共', '接待', '游客', '216', '.', '3', '万人次', ',', '创', '历年', '五一', '黄金周', '新高', '。', '全市', '旅游', '总收入', '达', '12', '.', '9', '亿元', '人民币', ',', '同比', '增长', '12', '.', '5%', '。', '也就是说', ',', '游客', '在', '宁波', '的', '人均', '旅游', '单项', '消费', '近', '600', '元', '。', '\n', '\u3000', '\u3000', '随着', '人们', '旅游', '需求', '层次', '的', '提高', ',', '旅游', '正', '从', '观光', '时代', '转向', '休闲', '时代', ',', '这个', '特点', '在', '今年', '更为', '明显', '。', '“', '吃', '农家饭', '、', '住', '农家', '屋', '、', '学', '农家', '活', '、', '享', '农家乐', '”', ',', '乡村', '旅游', '景区', '成为', '了', '热点', '。', '\n', '\u3000', '\u3000', '从', '宁波市', '接待', '的', '游客', '分布', '情况', '分析', ',', '大部分', '来自', '省内', '周边地区', '和', '上海', '、', '江苏', '等', '地', ',', '景区', '内', '各地', '牌照', '的', '私家车', '成为', '亮点', '和', '看点', ',', '特别', '是', '随着', '高速公路', '网络', '的', '完善', ',', '来自', '长三角', '地区', '、', '福建', '、', '江西', '等', '地', '的', '私家车', '明显', '增多', ',', '宁波市', '已', '成为', '长三角', '地区', '一个', '重要', '的', '旅游', '目的地', '。', '\n', '\u3000', '\u3000', '今年', '的', '五一', '黄金周', ',', '宁波', '游客', '的', '出游', '观念', '趋于', '理性', '。', '和', '去年', '相比', ',', '出境游', '人数', '下降', ',', '国内游', '人数', '增长', ',', '但', '长线', '游', '的', '人数', '增长幅度', '不', '大', ',', '短线', '游', '和', '休闲', '度假', '线', '人气旺盛', '。', '宁波', '市民', '长线', '游', '主要', '集中', '在', '北京', '、', '海南', '、', '桂林', '[', '图库', ']', '、', '西安', '[', '图库', ']', '、', '大连', '[', '图库', ']', '、', '香港', '等', '地', ',', '长三角', '周边', '景点', '成为', '短线', '游', '的', '热点', '。', '甬金', '高速', '开通', '以后', ',', '往', '金华', '、', '江西', '方向', '的', '游客', '数量', '也', '呈', '快速增长', '态势', '。', '\n', '\u3000', '\u3000'], 'C000016')
    (['\u3000', '\u3000', '新华社', '电', ' ', '美国宇航局', '官员', '近日', '说', ',', '宇航局', '已', '决定', '设立', '一项', '总', '奖金', '为', '2', '5', '0', '万美元', '的', '大奖赛', ',', '希望', '用', '这种', '方式', '选出', '未来', '登陆', '月球', '的', '飞行器', '设计方案', '。', '\n', '\u3000', '\u3000', '美宇航局', '副局长', '戴尔', '5', '月', '5', '日', '在', '加利福尼亚州', '举行', '的', '一次', '航天', '会议', '上', '说', ',', '宇航局', '已', '选定', '“', 'X', '大奖', '”', '基金会', '管理', '这项', '竞赛', ',', '宇航局', '除了', '出', '奖金', '外', ',', '也', '将', '在', '未来', '的', '月球', '登陆', '计划', '中', '应用', '获奖', '方案', '。', '\n', '\u3000', '\u3000', '这项', '大奖赛', '要求', '参赛者', '设计', '出能', '在', '月球', '上', '飞行', '、', '着陆', '的', '飞行器', '原型', '。', '“', 'X', '大奖', '”', '基金会', '说', ',', '它', '将', '比赛', '分成', '两个', '级别', ',', '在', '地球', '上', '模拟', '月球', '飞行', '。', '第一阶段', ',', '参赛', '飞行器', '要求', '从', '地球', '上', '的', '发射点', '发射', '到', '5', '0', '米', '高度', ',', '盘旋', '飞行', '9', '0', '秒钟', ',', '并', '在', '距', '发射点', '1', '0', '0', '米处', '的', '指定', '地点', '着陆', ',', '比赛', '的', '第一名', '将', '获得', '3', '5', '万美元', '奖金', '。', '\n', '\u3000', '\u3000', '而', '第二级', '别的', '难度', '高得', '多', '。', '参赛', '飞行器', '要求', '从', '发射点', '发射', '至', '5', '0', '米', '高度', ',', '盘旋', '飞行', '1', '8', '0', '秒', ',', '并', '在', '1', '0', '0', '米外', '类似', '月球', '表面', '的', '一处', '崎岖', '地点', '精确', '着陆', '。', '这项', '比赛', '的', '第一名', '将', '获得', '1', '2', '5', '万美元', '的', '奖金', ',', '其', '方案', '很', '可能', '被', '宇航局', '采纳', ',', '作为', '未来', '登陆', '月球', '的', '飞行器', '的', '原型', '。', '\n', '\u3000', '\u3000', '“', 'X', '大奖', '”', '基金会', '因', '举办', '私人', '设计', '航天器', '大奖赛', '而', '著名', ',', '著名', '航天', '设计师', '伯特', '·', '鲁坦', '设计', '的', '“', '宇宙飞船', '一号', '”', '于', '2', '0', '0', '4', '年', '成功', '地', '飞入', '亚', '轨道', ',', '成为', '全世界', '第一个', '私人', '设计', '建造', '的', '航天器', ',', '并', '赢得', '了', '1', '0', '0', '0', '万美元', '的', '“', 'X', '大奖', '”', '。'], 'C000013')
    (['\u3000', '\u3000', '大学生', '小', '袁', '网上', '投', '简历', '求职', ',', '一家', '自称', '设在', '广东', '的', '跨国公司', '分公司', '很快', '就', '打来', '电话', '进行', '“', '面试', '”', '。', '然而', '小', '袁', '查询', '该', '公司', '在', '上海', '的', '总部', '得知', ',', '他们', '没有', '在', '广东', '设立', '分公司', ',', '也', '没有', '在', '广东', '进行', '招聘', '。', '警方', '提醒', ',', '这', '很', '可能', '是', '个', '骗局', '。', '\n', '\u3000', '\u3000', '小', '袁是', '在', '一', '知名', '人才', '网站', '上', '发出', '电子', '简历', '的', ',', '令小', '袁', '意外', '的', '是', ',', '简历', '没投', '几天', ',', '就', '有', '一家', '比较', '知名', '的', '半导体', '跨国公司', '给', '自己', '打', '来', '电话', '。', '一位', '姓', '曹', '的', '女士', '告诉', '他', ',', '公司', '现在', '正要', '\n', '\u3000', '\u3000', '引进', '一批', '毕业生', ',', '年前', '就', '到', '岗', '培训', ',', '询问', '小', '袁', '有没有', '去', '的', '意向', '。', '欣喜若狂', '的', '小', '袁', '当即', '就', '同意', '了', '。', '1', '月', '15', '日', ',', '对方', '煞有介事', '地', '给', '小', '袁', '进行', '了', '电话', '招聘', '面试', '。', '三天', '后', ',', '小', '袁', '接到', '电话', '通知', '面试', '通过', '了', ',', '于', '1', '月', '22', '日到', '广东', '东莞', '体检', '、', '复试', '。', '\n', '\u3000', '\u3000', '据', '小', '袁', '所知', ',', '这家', '半导体', '公司', '好像', '是', '在', '上海', ',', '而', '对方', '让', '去', '东莞', '复试', ',', '他', '有点', '纳闷', '。', '曹', '女士', '解释', '说', ',', '公司', '要', '在', '东莞', '设立', '分点', ',', '亟待', '一批', '相关', '专业', '的', '大学生', '加盟', '。', '随后', ',', '她', '又', '把', '公司', '丰厚', '的', '工资', '、', '住房', '待遇', '向小袁', '作', '了', '一番', '介绍', '。', '\n', '\u3000', '\u3000', '小', '袁', '动心', '了', ',', '1', '月', '17', '日', '他', '来到', '火车站', ',', '准备', '预订', '到', '东莞', '的', '车票', '。', '由于', '没有', '直达车', ',', '到', '广州', '的', '票', '也', '没有', '了', ',', '他', '只好', '又', '回到', '了', '学校', '。', '此时', ',', '冷静下来', '的', '小', '袁才', '感觉', '事情', '有点', '不对劲', '。', '随后', ',', '他', '上网', '搜索', '了', '这家', '公司', '的', '详细资料', ',', '发现', '只有', '上海', '总部', '在', '发布', '招聘启事', ',', '其他', '地方', '根本', '就', '没有', '设立', '分公司', '。', '东莞', '的', '114', '也', '根本', '查不到', '这家', '公司', '的', '电话', '。', '\n', '\u3000', '\u3000', '随后', ',', '小', '袁', '拨打', '了', '东莞', '110', '报警', '电话', ',', '当地', '民警', '告知', '这', '很', '可能', '是', '个', '骗局', '。', '此前', '就', '有', '不少', '急于', '找', '工作', '的', '大学生', ',', '被', '不法分子', '骗进', '传销', '窝点', '。', '\n', '\u3000', '\u3000', '(', '来源', ':', '北京', '人才', '市场报', ')'], 'C000022')
    (['\u3000', '\u3000', '话题', '多', '、', '题材', '广', '、', '时间', '紧', '、', '要求', '高', '的', '议论文', '写作', '一直', '是', '雅思', '写作', '中', '的', '难点', ',', '思维', '狭窄', '、', '词汇', '不足', '也', '一直', '是', '中国', '考生', '的', '通病', ',', '如何', '在', '议论文', '写作', '中', '拓宽', '思路', '?', '怎样', '背诵', '8000', '个', '雅思', '词汇', '?', '备考', '雅思', '写作', '的', '误区', '和', '应对', '方法', '又', '是', '什么', '?', '上周末', ',', '启德', '教育', '吴建业', '老师', '在', '广州', '图书馆', '给', '广大', '考生', '上', '了', '一堂', '生动', '的', '雅思', '议论文', '写作', '课', '。', '\n', '\u3000', '\u3000', '开拓', '思维', '的', '十大', '原则', '\n', '\u3000', '\u3000', '据统计', ',', '近年来', '雅思', '议论文', '写作', '共有', '265', '个', '话题', ',', '常考', '的', '涉及', '环保', '、', '经济', '、', '社会', '、', '教育', '、', '犯罪', '等', '题材', ',', '十分', '广泛', '。', '鉴于', '很多', '考生', '写作', '时', '感觉', '无话可说', ',', '吴建业', '提醒', '考生', '从', '经济', '、', '时间', '、', '健康', '、', '情感', '、', '教育', '、', '心理', '、', '权利', '、', '文化', '、', '环保', '和', '道德', '十大', '原则', '来', '思考', '话题', '的', '意义', '。', '他', '以养', '狗', '为例', ':', '经济', '上要', '花', '很多', '钱', ';', '情感', '上', '亲近', '狗', '就', '会', '在', '一定', '程度', '上', '疏远', '家人', ';', '遛狗', '、', '给', '狗', '冲凉', '等', '浪费时间', ';', '狗', '传播', '疾病', '会', '影响', '健康', ';', '养狗会', '影响', '学习', ';', '狗', '很', '忠诚', ',', '养狗会', '让', '人', '从', '心理', '上', '疏远', '狡诈', '的', '人类', ';', '侵犯', '邻居', '的', '权利', ';', '狗', '到处', '排泄', '会', '破坏', '环境', '等', '。', '“', '这样', '大家', '碰到', '任何', '一个', '话题', '都', '不用', '心虚', '了', '。', '”', '但是', '他', '同时', '提醒', '广大', '考生', '不必', '面面俱到', ',', '只要', '挑出', '十大', '原则', '中', '的', '两三点', '来', '自圆其说', '就', '绰绰有余', '了', '。', '\n', '\u3000', '\u3000', '记住', '800', '个', '核心', '词汇', '\n', '\u3000', '\u3000', '“', '垃圾', '怎么', '说', '?', '可回收', '垃圾', '?', '可降解', '的', '垃圾', '?', '…', '…', '”', '课堂', '上', ',', '吴建业', '关于', '垃圾', '的', '几个', '提问', '难倒', '了', '很多', '在场', '的', '英语专业', '的', '学生', '。', '吴建业', '老师', '表示', ',', '中国', '学生', '在', '学校', '学习', '的', '词汇', '在', '很多', '场合', '用不上', ',', '比如', '英语专业', '八级', '侧重于', '文学名著', ',', '商务英语', '则', '侧重', '谈判', '、', '商业', '词汇', '。', '雅思', '需要', '8000', '词汇', ',', '但', '相当', '一部分', '考生', '疯狂', '地', '从', 'A', '背到', 'Z', ',', '还', '存在', '想', '说', '却说', '不', '出来', ',', '即使', '说', '得', '出来', '也', '衔接', '不来', '的', '问题', '。', '怎么办', '?', '\n', '\u3000', '\u3000', '“', '分类', '背诵', ',', '联想', '记忆', '。', '”', '吴建业', '告诉', '广大', '考生', ',', '只要', '掌握', '了', '800', '个', '词汇', ',', '就', '可', '轻松', '应对', '雅思', '写作', '。', '“', '当然', '这些', '词汇', '是', '剔除', '了', 'dog', '、', 'pig', '之类', '的', '核心', '词汇', '。', '”', '那', '什么', '词才', '叫', '核心', '词汇', '呢', '?', '吴建业', '举', '了', '一个', '例子', ',', '如由', '奢侈', '→', '贫穷', '→', '救助', '→', '难民', '→', '…', '…', ',', '就', '这样', '把', '相关联', '的', '词汇', '串通', '起来', '背诵', ',', '既', '掌握', '了', '词汇', ',', '而', '这些', '词汇', '往往', '是', '一篇', '文章', '中', '可能', '涉及', '的', '内容', '。', '\n', '\u3000', '\u3000', '写', '个性化', '的', '八股文', '\n', '\u3000', '\u3000', '吴', '老师', '还', '指出', '了', '考生', '的', '备考', '误区', '和', '应对', '方法', '。', '针对', '很多', '人', '希望', '通过', '学习', '外文', '名著', '来', '提高', '写作水平', '的', '想法', ',', '吴', '老师', '认为', '外国名著', '对', '大多数', '中国', '考生', '而言', '是', '可望而不可及', '的', '。', '“', '外国人', '学', '汉语', '要', '学习', '汉语', '说得好', '的', '大山', '和', '大牛', ',', '而', '不', '可能', '让', '他们', '学习', '鲁迅', '先生', '的', '《', '药', '》', '、', '《', '孔乙己', '》', '等', '名篇', '。', '”', '同样', ',', '中国', '考生', '要', '学习', '英语', '学得', '优秀', '的', '中国', '人', ',', '他', '认为', '真正', '优秀', '的', '教材', '其实', '是', '中国', '考生', '的', '优秀', '范文', '。', '\n', '\u3000', '\u3000', '提到', '一些', '辅导', '老师', '教育', '学生', '写作文', '一定', '要', '真情流露', ',', '想到', '什么', '就', '说', '什么', ',', '吴', '老师', '认为', '这', '是', '不', '现实', '的', ',', '因为', '对', '大多数', '中国', '考生', '来说', ',', '做到', '挥洒自如', '、', '下笔', '自若', '、', '真情流露', '很难', '。', '而', '很多', '人', '争相', '背诵', '名师', '的', '范文', '又', '搞', '得', '千人一面', ',', '味同嚼蜡', '。', '鉴于', '此', ',', '他', '认为', '既', '要', '学习', '范文', '的', '格式', ',', '又', '要', '有所', '改装', ',', '加入', '自己', '的', '东西', ',', '凸显', '个性', ',', '“', '写', '个性化', '的', '八股文', '”', '。', '\n', '\u3000', '\u3000', '讲座', '上', ',', '吴', '老师', '还', '提醒', '考生', '写作', '时', '不要', '想着', '标新立异', '、', '旁征博引', ',', '只要', '能够', '自圆其说', ',', '多用', '权威', '、', '翔实', '的', '数据', '事例', '来', '说明', '观点', '就', '好', ',', '否则', '会', '画蛇添足', '。'], 'C000020')
    (['\u3000', '\u3000', '科龙德', '勤案', '又', '有', '新进展', ':', '已有', '多位', '科龙', 'H股', '股东', '到', '律师', '处', '咨询', '、', '登记', ',', '所涉', '股份', '达', '200', '余万股', '。', '而', '这些', '投资者', '正在', '为', '等待', '提起', '民事', '赔偿', '所', '需', '的', '前置条件', '焦急', '等待', '。', '\n', '\u3000', '\u3000', '4', '月', '29', '日', ',', '上海', '新', '望闻达', '律师', '事务所律师', '宋一欣', '、', '秦桢凯', '在', '中国', '证券', '网上', '发表', '了', '《', '向', '境内', '外科', '龙', 'H股', '投资者', '征集', '民事', '赔偿', '诉讼', '代理', '的', '启事', '》', ',', '全面', '接受', '科龙电器', '流通', 'H股', '及', 'A股', '投资者', '的', '诉讼', '及', '仲裁', '委托', '代理', '事项', '。', '宋一欣', '律师', '告诉', '《', '上海', '证券报', '》', '记者', ',', '“', '《', '启事', '》', '刊登', '当天', ',', '就', '有', 'H股', '股东', '前来', '咨询', '登记', ',', '由于', '五一', '长假', ',', '事务所', '休息', ',', '许多', 'H股', '股东', '想方设法', '找到', '我', '的', '电子信箱', '同', '我', '联系', '。', '截至', '今天', ',', '已有', '七八位', 'H股', '股东', '前来', '咨询', '、', '登记', ',', '所', '涉及', '股份', '己', '达', '50', '余万股', ',', '损失', '金额', '有待', '统计', '。', '这些', 'H股', '股东', '中有', '境外', '居民', '。', '他们', '正', '焦急', '等待', '此案', '前置程序', '的', '满足', '。', '”', '\n', '\u3000', '\u3000', '首位', '代表', '科龙', '股东', '状告', '德勤', '的', '上海市', '光明', '律师', '事务所', '南京', '分', '所', '律师', '涂勇则', '向', '记者', '透露', ':', '“', '多位', '科龙', 'H股', '股东', '前来', '向', '我', '咨询', '起诉', '事宜', '。', '其中', '一位', '就', '持有', '150', '万股', '科龙', 'H股', ',', '持股', '成本', '高达', '300', '多万元', '。', '他', '非常', '渴望', '前置程序', '能', '尽快', '满足', ',', '以便', '诉上', '公堂', '。', '”', '\n', '\u3000', '\u3000', '据', '宋一欣', '介绍', ',', '“', '根据', '最高人民法院', '司法解释', '的', '规定', ',', '提起', '虚假', '陈述', '民事', '赔偿', '诉讼', '必须', '满足', '前置条件', ',', '即', '中国证监会', '或', '财政部', '的', '行政处罚', '决定', ',', '或', '有关', '法院', '认定', '有罪', '并', '生效', '的', '刑事', '判决书', ',', '两者', '以先', '出台', '者', '为准', '。', '”', '\n', '\u3000', '\u3000', '“', '在', '科龙案', '中', ',', '中国证监会', '已经', '对', '科龙电器', '与', '德勤', '会计师', '事务所', '进行', '了', '行政处罚', '前', '的', '听证', '程序', ',', '如果', '没有', '意外', ',', '估计', '今年', '上半年', '内', '行政处罚', '决定', '将', '出台', ';', '而', '顾雏军', '编制', '虚假', '财务报告', '罪案', '已经', '被', '广东省', '佛山市', '人民检察院', '立案', '、', '即将', '提起公诉', ',', '刑事', '审判', '在', '即', '。', '因此', ',', '包括', 'H股', '股东', '在内', '的', '科龙电器', '权益', '受损', '的', '投资者', '提起', '民事', '赔偿', '应该', '不成问题', ',', '只是', '需要', '等待', ',', '万事俱备', '、', '只欠东风', '。', '”', '宋一欣', '进一步', '解释', '道', '。', '\n', '\u3000', '\u3000', '谈及', '此案', '的', '被告', ',', '宋一欣', '表示', ',', '“', '科龙电器', '虚假', '陈述', '可', '涉及', '很多', '被告', ',', '如', '科龙电器', '公司', ';', '顾雏军', '等', '原', '董事', '、', '高管', '人员', '及', '直接', '责任人员', ';', '存在', '失职', '的', '原', '监事会', '成员', '和', '独立', '董事', ';', '进行', '审计', '的', '会计师', '事务所', '(', '会计师', '行', ')', '及其', '承担责任', '的', '合伙人', '、', '相关', '注册', '会计师', ';', '由于', '虚假', '陈述', '而', '获益', '的', '关联', '企业', '、', '控股', '股东', '等', '。', '但', '主要', '被告', '有', '三', ',', '即', '科龙电器', '公司', '、', '顾雏军', '、', '德勤华', '永', '会计师', '事务所', '(', 'A股', '股东', ')', '或德勤', '·', '关黄陈', '会计师', '行', '(', 'H股', '股东', ')', '。', '”', '\n', '\u3000', '\u3000', '宋一欣', '称', ',', '“', '证券', '民事', '赔偿', '诉讼', '应当', '采取', '目前', '《', '民事', '诉讼法', '》', '规定', '的', '共同', '诉讼', '方式', ',', '科龙案', '也', '是', '如此', '。', '以', '共同', '诉讼', '提起', '的', '原告', '由于', '合并', '后', '按', '比例', '计算', '诉讼费', ',', '故其', '支出', '的', '诉讼费', '要', '比', '单独', '诉讼', '提起', '的', '原告', '所', '支付', '的', '诉讼费', '要少', '。', '所以', ',', '作为', '代理律师', ',', '从', '投资者', '的', '角度', '考虑', ',', '我', '需要', '筹集', '到', '一定', '数量', '投资者', '委托', '后', '才', '安排', '起诉', '。', '”', '(', '本报记者', ' ', '岳敬飞', ' ', '何军', ')'], 'C000008')
    (['\u3000', '\u3000', '大学生', '小', '袁', '网上', '投', '简历', '求职', ',', '一家', '自称', '设在', '广东', '的', '跨国公司', '分公司', '很快', '就', '打来', '电话', '进行', '“', '面试', '”', '。', '然而', '小', '袁', '查询', '该', '公司', '在', '上海', '的', '总部', '得知', ',', '他们', '没有', '在', '广东', '设立', '分公司', ',', '也', '没有', '在', '广东', '进行', '招聘', '。', '警方', '提醒', ',', '这', '很', '可能', '是', '个', '骗局', '。', '\n', '\u3000', '\u3000', '小', '袁是', '在', '一', '知名', '人才', '网站', '上', '发出', '电子', '简历', '的', ',', '令小', '袁', '意外', '的', '是', ',', '简历', '没投', '几天', ',', '就', '有', '一家', '比较', '知名', '的', '半导体', '跨国公司', '给', '自己', '打', '来', '电话', '。', '一位', '姓', '曹', '的', '女士', '告诉', '他', ',', '公司', '现在', '正要', '\n', '\u3000', '\u3000', '引进', '一批', '毕业生', ',', '年前', '就', '到', '岗', '培训', ',', '询问', '小', '袁', '有没有', '去', '的', '意向', '。', '欣喜若狂', '的', '小', '袁', '当即', '就', '同意', '了', '。', '1', '月', '15', '日', ',', '对方', '煞有介事', '地', '给', '小', '袁', '进行', '了', '电话', '招聘', '面试', '。', '三天', '后', ',', '小', '袁', '接到', '电话', '通知', '面试', '通过', '了', ',', '于', '1', '月', '22', '日到', '广东', '东莞', '体检', '、', '复试', '。', '\n', '\u3000', '\u3000', '据', '小', '袁', '所知', ',', '这家', '半导体', '公司', '好像', '是', '在', '上海', ',', '而', '对方', '让', '去', '东莞', '复试', ',', '他', '有点', '纳闷', '。', '曹', '女士', '解释', '说', ',', '公司', '要', '在', '东莞', '设立', '分点', ',', '亟待', '一批', '相关', '专业', '的', '大学生', '加盟', '。', '随后', ',', '她', '又', '把', '公司', '丰厚', '的', '工资', '、', '住房', '待遇', '向小袁', '作', '了', '一番', '介绍', '。', '\n', '\u3000', '\u3000', '小', '袁', '动心', '了', ',', '1', '月', '17', '日', '他', '来到', '火车站', ',', '准备', '预订', '到', '东莞', '的', '车票', '。', '由于', '没有', '直达车', ',', '到', '广州', '的', '票', '也', '没有', '了', ',', '他', '只好', '又', '回到', '了', '学校', '。', '此时', ',', '冷静下来', '的', '小', '袁才', '感觉', '事情', '有点', '不对劲', '。', '随后', ',', '他', '上网', '搜索', '了', '这家', '公司', '的', '详细资料', ',', '发现', '只有', '上海', '总部', '在', '发布', '招聘启事', ',', '其他', '地方', '根本', '就', '没有', '设立', '分公司', '。', '东莞', '的', '114', '也', '根本', '查不到', '这家', '公司', '的', '电话', '。', '\n', '\u3000', '\u3000', '随后', ',', '小', '袁', '拨打', '了', '东莞', '110', '报警', '电话', ',', '当地', '民警', '告知', '这', '很', '可能', '是', '个', '骗局', '。', '此前', '就', '有', '不少', '急于', '找', '工作', '的', '大学生', ',', '被', '不法分子', '骗进', '传销', '窝点', '。', '\n', '\u3000', '\u3000', '(', '来源', ':', '北京', '人才', '市场报', ')'], 'C000022')
    (['\n', '\n', '\n', '夜幕', '下', '的', '太和', '门', '广场', '\n', '\u3000', '\u3000', '9', '月', '18', '日晚', ',', '时值', '中国', '传统', '佳节', '农历', '八月', '十五', '中秋节', '之际', ',', '由', '中国', '故宫博物院', '主办', '、', '山东', '潍柴', '动力', '股份', '有限公司', '冠名', '赞助', '的', '“', '太和', '邀月颂', '和平', '—', '—', '潍柴', '动力', '之夜', '”', '中秋', '招待会', '在', '北京故宫', '太和', '门', '广场', '举行', '。', '来自', '国内', '政府', '、', '文化', '演艺界', '及', '企业界', '等', '各界', '精英', '汇聚', '古老', '神秘', '的', '宫内', '广场', ',', '抒发', '当代', '国人', '对', '历史', '的', '追思', '和', '对', '中华民族', '未来', '的', '憧憬', ',', '举杯', '邀月', '共度', '中秋', ',', '把', '纪念', '故宫博物院', '建院', '80', '周年', '、', '中国', '人民', '抗日战争', '胜利', '60', '周年', '两个', '活动', '再次', '推向', '了', '高潮', '。', '本次', '招待会', '由', '著名', '学者', '田青', '和', '凤凰卫视', '当家花旦', '陈鲁豫', '、', '曹', '景行', '主持', '。', '\n', '\u3000', '\u3000', '是', '日', '晚上', ',', '北京', '太和', '门', '广场', '灯光', '璀璨', ',', '高朋满座', ',', '文化氛围', '浓郁', '。', '来自', '戏曲界', '、', '演奏', '界', '、', '表演', '界', '的', '大师', '们', '给', '与会者', '奉献', '上', '了', '《', '思乡曲', '》', '《', '二泉映月', '》', '《', '八月', '十五', '月', '光明', '》', '等', '著名', '的', '传统', '曲目', ',', '著名', '表演家', '濮存昕', '、', '吴俊全', '等', '还', '朗诵', '了', '《', '水调歌头', '》', '《', '雪落', '在', '中国', '土地', '上', '》', '等', '著名', '古今', '诗歌', ',', '表达', '了', '对', '中华民族', '优秀', '传统', '文化', '的', '追思', '和', '对', '民族', '昌盛', '的', '期盼', '。', '此外', ',', '来自', '书画界', '的', '大师', '们', '还', '现场', '泼墨', ',', '鉴赏', '经典', '古画', ',', '并', '留下', '墨宝', '以作', '纪念', '。', '艺术表演', '家们', '在', '舞台', '上', '精彩', '的', '表现', '赢得', '了', '与会', '各界', '嘉宾', '的', '阵阵', '掌声', ',', '人们', '乘着', '朗朗', '月色', ',', '举杯', '邀月', ',', '畅谈', '古今', ',', '抒发', '着', '当代', '中国', '对', '历史', '的', '铭记', '和', '对', '未来', '民族', '复兴', '的', '祈盼', '。', '\n', '独唱', '《', '今夜', '无人', '入睡', '》', '—', '—', '著名', '男高音', '歌唱家', '莫华伦', '\n', '小提琴', '演奏家', '陈曦', '与', '主持人', '陈鲁豫', '交流', '\n', '\u3000', '\u3000', '今年', '是', '北京故宫博物院', '成立', '八十周年', ',', '八十年', '来', ',', '北京故宫', '为', '弘扬', '中华民族', '的', '传统', '文化', ',', '为', '保护', '我国', '珍贵', '的', '历史', '遗产', '作出', '了', '巨大', '的', '贡献', ';', '同时', ',', '今年', '也', '是', '中国', '人民', '抗日', '胜利', '六十周年', ',', '身处', '北京故宫', '的', '太和', '门', '广场', '正是', '当年', '日寇', '华北', '方面军', '向', '中国', '统辖', '华北地区', '的', '第十一', '战区', '投降', '的', '仪式', '举行', '的', '地方', '。', '可以', '说', ',', '身处', '紫禁城', '的', '太和殿', '见证', '了', '我国', '历史', '的', '兴衰', '荣辱', ',', '见证', '了', '中国', '人民', '抗日战争', '的', '伟大胜利', ';', '六十年', '后', ',', '在', '同一', '地点', '举行', '纪念活动', ',', '意义', '非同小可', '。', '它', '告诉', '我们', '要', '铭记', '历史', ',', '继往开来', ',', '要', '为', '中华民族', '的', '伟大', '复兴', ',', '为', '世界', '各族人民', '的', '和平', '而', '不懈', '奋斗', '!', '\n', '濮存昕', '朗诵', '\n', '\u3000', '\u3000', '据悉', ',', '来自', '潍柴', '动力', '股份', '有限公司', '的', '领导', '介绍', ',', '作为', '国内', '知名', '的', '内燃机', '研发', '、', '制造', '、', '销售', '骨干企业', ',', '潍柴', '动力', '一直', '关注', '首都', '文化产业', '的', '发展', ',', '希望', '凭借', '此次', '活动', ',', '给', '中国', '的', '精英', '人士', '提供', '一个', '更好', '的', '交流', '机会', '和', '场所', ',', '拓展', '企业', '发展', '平台', ',', '振奋', '民族', '精神', ',', '为', '繁荣', '国际', '文化交流', ',', '进一步', '开辟', '中国', '文化', '传承', '空间', '贡献', '更', '多', '的', '力量', '!', '\n', '书法', '表演', '\n', '\u3000', '\u3000', '晚会', '在', '著名', '男高音', '歌唱家', '莫华伦', '的', '一曲', '《', '今夜', '无人', '入眠', '》', '中', '结束', ',', '留给', '了', '节日', '的', '京城', '一个', '难忘', '的', '夜晚', '。', '\n', '\u3000', '\u3000', '搜狗', '(', 'www', '.', 'sogou', '.', 'com', ')', '搜索', ':', '“', '太和', '”', ',', '共', '找到', '322', ',', '079', '\n', '个', '相关', '网页', '.', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00'], 'C000022')
    (['\u3000', '\u3000', '50', '余名', '沈阳市', '职业', '学校', '校长', '近日', '走进', '清华园', ',', '在', '沈阳市', '教育局', '与', '清华大学', '共同', '举办', '的', '首期', '沈阳市', '职业', '学校', '校长', '高级', '研修班', '上', '为', '自己', ',', '更为', '沈阳', '的', '职业', '教育', '而', '“', '充电', '”', '。', '\n', '\u3000', '\u3000', '沈阳市', '中等职业', '学校', '重组', '于', '上', '世纪', '80', '年代', ',', '绝大部分', '学校', '是', '由', '薄弱', '学校', '改造', '而成', '。', '近年来', ',', '随着', '国家', '、', '省', '、', '市', '各级', '政府', '对', '职业', '教育', '的', '重视', ',', '沈阳市', '职业', '教育', '\n', '\u3000', '\u3000', '有', '了', '较大', '发展', '。', '目前', ',', '沈阳市', '已有', '中等职业', '学校', '131', '所', ',', '中等职业', '学校', '教师', '9500', '人', ',', '专业', '教师', '4800', '人', ',', '在校生', '9', '万余', '人', ',', '年', '毕业生', '3', '万余', '人', '。', '\n', '\u3000', '\u3000', '2006', '年', ',', '为了', '让', '职业', '教育', '有', '一个', '更大', '的', '发展', ',', '沈阳市', '决定', '不仅', '在', '硬件', '上', '加大', '投入', ',', '按照', '国家级', '示范校', '的', '标准', '建', '6', '所万人', '规模', '的', '中等职业', '学校', ',', '同时', ',', '还要', '在', '在', '软件', '建设', '上', '有', '一个', '新', '突破', ',', '按照', '国家', '职业', '教育', '教学质量', '评估', '标准', ',', '全面', '提升', '沈阳市', '中等职业', '学校', '教育', '教学质量', '。', '为此', ',', '沈阳市', '教育局', '借助', '清华大学', '这样', '一个', '高层次', '的', '培训', '平台', ',', '举办', '各种', '层次', '的', '共', '10', '期', '研修班', ',', '对', '分管', '各项', '工作', '的', '副校长', '和', '专业', '教师', '约', '500', '人', '进行', '培训', ',', '通过', '国家教育部', '职业', '与', '成人教育', '司', '有关', '领导', '、', '国内', '优秀', '企业家', '、', '教育', '专家', '、', '知名', '学者', '和', '国内', '重点', '职业院校', '校长', '的', '讲座', '及', '经验交流', ',', '使', '参加', '研修', '人员', '政策', '水平', '、', '理论知识', '、', '教学管理', '能力', '及', '个人', '学养', '得到', '提高', ',', '从而', '全面', '提升', '沈阳市', '职业院校', '的', '内涵', '建设', ',', '进一步', '培养', '、', '打造出', '一支', '高水平', '的', '职业院校', '优秀', '的', '管理者', '和', '“', '双师型', '”', '教师队伍', '。', '\n', '\u3000', '\u3000', '沈阳市', '副', '市长', '王玲', '、', '沈阳市', '教育局', '局长', '李梦玲', '、', '教育部', '职成司', '副司长', '刘占山', '、', '清华大学', '副校长', '陈吉宁', '参加', '了', '首期', '研修班', '的', '开班', '仪式', '。', '他们', '表示', ',', '清华大学', '和', '沈阳市', '的', '这种', '合作', ',', '必将', '促进', '沈阳市', '职业', '教育', '的', '跨越式', '发展', ',', '双方', '在', '市', '、', '校', '人才', '合作', '培养', '模式', '上', '的', '有益', '探索', ',', '不仅', '会', '加深', '和', '扩大', '双方', '在', '各个领域', '的', '合作', ',', '也', '会', '对', '全国', '的', '职业', '教育', '提供', '有益', '的', '经验', '。', '\n', '\u3000', '\u3000', '来源', ':', '光明日报'], 'C000024')
    
    

    五、半朴素贝叶斯分类器

    (1)半朴素贝叶斯理论

    在朴素贝叶斯分类器中采用了属性条件独立性假设,但在现实任务中这个假设往往很难成立,于是半朴素贝叶斯分类器就适当考虑一部分属性间的相互依赖关系,从而既不需要进行完全联合概率计算,又不至于彻底忽略了比较强的属性依赖
    在这里插入图片描述

    实例1

    属性依赖关系为:属性大小依赖于形状,且大小为大时,形状为圆,颜色没有依赖属性,属性形状依赖于大小,且形状为圆时,大小为大

    判断属性大小为大,颜色为青,形状为圆下,是否为好果
    苹果分类
    先分别计算类先验概率和带有依赖属性的类条件概率,其中计算类先验概率时,由于好果只有是和否两种情况,所以分母+2,计算带有依赖属性的类条件概率时,每个属性的取值情况也恰好为2,所以分母+2,最后计算后验概率,属于一般果的后验概率较大,所以把属性大小为大,颜色为青,形状为圆的样本判别为一般果

    (2)寻找父属性的三种方法

    - 方法1 SPODE(Super-Parent ODE)

    假设所有属性都依赖于同一个属性,称为“超父”,然后通过交叉验证等模型选择方法来确定超父属性,由此形成了SPODE方法,如图,x2,x3,…,xd都依赖于超父属性x1
    在这里插入图片描述

    - SPODE实战

    训练集

    1,青绿,蜷缩,浊响,清晰,凹陷,硬滑,是
    2,乌黑,蜷缩,沉闷,清晰,凹陷,硬滑,是
    5,浅白,蜷缩,浊响,清晰,凹陷,硬滑,是
    6,青绿,稍蜷,浊响,清晰,稍凹,软粘,是
    7,乌黑,稍蜷,浊响,稍糊,稍凹,软粘,是
    9,乌黑,稍蜷,沉闷,稍糊,稍凹,硬滑,否
    10,青绿,硬挺,清脆,清晰,平坦,软粘,否
    11,浅白,硬挺,清脆,模糊,平坦,硬滑,否
    14,浅白,稍蜷,沉闷,稍糊,凹陷,硬滑,否
    15,乌黑,稍蜷,浊响,清晰,稍凹,软粘,否
    16,浅白,蜷缩,浊响,模糊,平坦,硬滑,否
    

    测试集

    3,乌黑,蜷缩,浊响,清晰,凹陷,硬滑,是
    4,青绿,蜷缩,沉闷,清晰,凹陷,硬滑,是
    8,乌黑,稍蜷,浊响,清晰,稍凹,硬滑,是
    12,浅白,蜷缩,浊响,模糊,平坦,软粘,否
    13,青绿,稍蜷,浊响,稍糊,凹陷,硬滑,否
    17,青绿,蜷缩,沉闷,稍糊,稍凹,硬滑,否
    
    import math
    import numpy as np
    import random
    
    
    # 加载数据
    def loadData(filename):
        dataSet = []
        f = open(filename,encoding='utf-8')
        for line in f.readlines():
            lineArr = line.strip().split(',')
            dataSet.append(lineArr)
        labels = ['编号','色泽','根蒂','敲声','纹理','脐部','触感']
        return dataSet,labels           # 返回数据集,标签
    
    
    # SPODE算法
    def SPODE(dataSet,labels,testData):
        index = CrossValidation(dataSet, labels,testData)    # 交叉验证获取超父属性
        print("Super-Parent = ",labels[index])
        pn = [3, 3, 3, 3, 3, 2]  # 各变量的类型数
        tdata = dataSet[random.randint(0,len(dataSet)-1)]   # 选择一个测试样本,将其index属性作为超父属性
        px = np.zeros((2, 1))        # px为当前属性在类别和依赖属性下的计数
        pclass = 0  # 为正类的概率
        nclass = 0  # 为负类的概率
        pc = np.zeros((2, 1))        # pc为类别和依赖属性的计数,作分母
        tempdata = []
    
        for data in dataSet:       # 遍历训练数据,筛选出满足依赖属性的数据
            if (data[-1] == '是' and data[index] == tdata[index]):  # 刷选出满足依赖属性的数据
                pc[0] += 1
                tempdata.append(data)
            if (data[-1] == '否' and data[index] == tdata[index]):
                pc[1] += 1
                tempdata.append(data)
        for j in range(1, len(labels)):
            if (index != j):
                for data in tempdata:  # 遍历训练数据,筛选出符合条件数据
                    if (data[-1] == '是' and data[index] == tdata[index] and data[j] == tdata[j]):  # 刷选出满足依赖属性的数据
                        px[0] += 1
                    if (data[-1] == '否' and data[index] == tdata[index] and data[j] == tdata[j]):
                        px[1] += 1
                pclass += np.log((px[0] + 1) / (pc[0] + pn[j - 1]))         # 类条件概率
                nclass += np.log((px[1] + 1) / (pc[1] + pn[j - 1]))
        good = np.log((pc[0] + 1) / (pc[0] + pc[1] + 2)) + pclass          # 后验概率
        bad = np.log((pc[1] + 1) / (pc[0] + pc[1] + 2)) + nclass
        print(tdata)
        if (good >= bad):
            print('P(good) =',good,'\n','P(bad) = ',bad,'\n','是',sep='')
        else:
            print('P(good) =',good,'\n','P(bad) = ',bad,'\n','否',sep='')
    
    
    # 交叉验证选择最优的属性
    def CrossValidation(dataSet,labels,testData):
        pn = [3, 3, 3, 3, 3, 2]  # 各变量的类型数
        maxcorrect = 0
        index = 0
        for i in range(1,len(labels)):                  # 遍历所有属性,选择第i个属性作为超父
            correct = 0
            pc = np.zeros((2, 1))           # pc为类别和依赖属性的计数,作分母
            tempdata = []
            for tdata in testData:          # 遍历测试数据
                for data in dataSet:        # 遍历训练数据,筛选出满足依赖属性的数据
                    if (data[-1] == '是' and data[i] == tdata[i]):
                        pc[0] += 1
                        tempdata.append(data)
                    if (data[-1] == '否' and data[i] == tdata[i]):
                        pc[1] += 1
                        tempdata.append(data)
                # print(pc)
    
                for j in range(1,len(labels)):      # 该循环计算带有依赖属性的类条件概率
                    px = np.zeros((2, 1))           # px为当前属性在依赖属性下的计数
                    pclass = 0  # 为正类的概率
                    nclass = 0  # 为负类的概率
                    if (i != j):
                        for data in tempdata:  # 遍历训练数据,筛选出符合条件数据
                            if (data[-1] == '是' and data[i] == tdata[i] and data[j]==tdata[j] ):  # 刷选出满足依赖属性的数据
                                px[0] += 1
                            if (data[-1] == '否' and data[i] == tdata[i] and data[j]==tdata[j] ):
                                px[1] += 1
                        pclass += np.log((px[0] + 1) / (pc[0] + pn[j - 1]))
                        nclass += np.log((px[1] + 1) / (pc[1] + pn[j - 1]))
                        '''print(px)
                           print(pclass)
                           print(nclass)'''
                pclass = np.log((pc[0] + 1) / (pc[0] + pc[1] + 2)) + pclass            # 后验概率
                nclass = np.log((pc[1] + 1) / (pc[0] + pc[1] + 2)) + nclass
                if ((pclass >= nclass and tdata[-1]=='是') or (pclass < nclass and tdata[-1]=='否')):  # 正确的分类
                    correct+=1
    
            if( correct > maxcorrect ):    # 正确分类最多的所依赖的属性作为”超父“
                maxcorrect = correct
                index= i
        return index
    
    
    if __name__ == '__main__':
        dataSet, labels_1 = loadData('train_Data.txt')
        testData, label_2 = loadData('test_Data.txt')
        SPODE(dataSet, labels_1, testData)
    
    Super-Parent =  纹理
    ['1', '青绿', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', '是']
    P(good) =[0.23514949]
    P(bad) = [-4.12274404]
    是
    

    - 方法2 TAN(Tree Augmented naive Bayes)

    (1).计算任意两个属性之间的条件互信息
    在这里插入图片描述
    (2). 以属性为结点构建完全图,任意两个结点之间边的权重设为I(x_i,x_j|y)
    (3). 构建此完全图的最大带权生成树,挑选根变量,将边置为有向。
    (4). 加入类别结点y,增加从y到每个属性的有向边。

    如下图,假设有4个属性(凹陷,清晰,青绿,浊响),首先计算任意两个结点间的条件互信息,得到一个无向完全图(左),再根据无向完全图构建最大带权生成数,挑选根变量(根变量的选择可以将树中所有结点均作为根结点),将边设置为有向,加入类别结点y,增加从y到每个属性的有向(右)
    在这里插入图片描述

    - 方法3 AODE(Averaged One-Dependent Estimator)

    AODE一种基于集成学习机制、更为强大的独依赖分类器,其过程就是一个计数过程

    相关计算公式:
    计算公式
    在这里插入图片描述
    以西瓜数据集为例
    在这里插入图片描述

    - AODE实战

    import numpy as np
    import random
    
    
    def getDataSet():
        dataSet = [
            ['青绿', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', 0.697, 0.460, 1],
            ['乌黑', '蜷缩', '沉闷', '清晰', '凹陷', '硬滑', 0.774, 0.376, 1],
            ['乌黑', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', 0.634, 0.264, 1],
            ['青绿', '蜷缩', '沉闷', '清晰', '凹陷', '硬滑', 0.608, 0.318, 1],
            ['浅白', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', 0.556, 0.215, 1],
            ['青绿', '稍蜷', '浊响', '清晰', '稍凹', '软粘', 0.403, 0.237, 1],
            ['乌黑', '稍蜷', '浊响', '稍糊', '稍凹', '软粘', 0.481, 0.149, 1],
            ['乌黑', '稍蜷', '浊响', '清晰', '稍凹', '硬滑', 0.437, 0.211, 1],
            ['乌黑', '稍蜷', '沉闷', '稍糊', '稍凹', '硬滑', 0.666, 0.091, 0],
            ['青绿', '硬挺', '清脆', '清晰', '平坦', '软粘', 0.243, 0.267, 0],
            ['浅白', '硬挺', '清脆', '模糊', '平坦', '硬滑', 0.245, 0.057, 0],
            ['浅白', '蜷缩', '浊响', '模糊', '平坦', '软粘', 0.343, 0.099, 0],
            ['青绿', '稍蜷', '浊响', '稍糊', '凹陷', '硬滑', 0.639, 0.161, 0],
            ['浅白', '稍蜷', '沉闷', '稍糊', '凹陷', '硬滑', 0.657, 0.198, 0],
            ['乌黑', '稍蜷', '浊响', '清晰', '稍凹', '软粘', 0.360, 0.370, 0],
            ['浅白', '蜷缩', '浊响', '模糊', '平坦', '硬滑', 0.593, 0.042, 0],
            ['青绿', '蜷缩', '沉闷', '稍糊', '稍凹', '硬滑', 0.719, 0.103, 0]
        ]
    
        features = ['色泽', '根蒂', '敲声', '纹理', '脐部', '触感']
    
        featureDic = {}
        for i in range(len(features)):
            featureList = [example[i] for example in dataSet]
            uniqueFeature = list(set(featureList))
            featureDic[features[i]] = uniqueFeature
    
        dataSet = np.array(dataSet)
        return dataSet, features, featureDic   # 数据集,标签,属性取值字典
    
    
    def AODE(dataSet, data, features, featureDic):
        m, n = dataSet.shape
        n = n - 3       # 特征不取连续值的属性,如密度和含糖量。
        pDir = {}       # 保存三个值。好瓜的可能性,坏瓜的可能性,和预测的值。
        for classLabel in ["好瓜", "坏瓜"]:
            P = 0.0
            if classLabel == "好瓜":
                sign = '1'
            else:
                sign = '0'
            extrDataSet = dataSet[dataSet[:, -1] == sign]    # 抽出类别为sign的数据
            for i in range(n):                               # 遍历每一个i个属性
                xi = data[i]
                # 计算当前类别下,第i个属性上取值为xi的样本对总数据集的占比
                Dcxi = extrDataSet[extrDataSet[:, i] == xi]  # 第i个属性上取值为xi的样本数
                Ni = len(featureDic[features[i]])            # 第i个属性可能的取值数
                Pcxi = (len(Dcxi) + 1) / float(m + 2 * Ni)
                # 计算类别为c且在第i和第j个属性上分别为xi和xj的样本,对于类别为c属性为xi的样本的占比
                mulPCond = 1
                for j in range(n):
                    xj = data[j]
                    Dcxij = Dcxi[Dcxi[:, j] == xj]
                    Nj = len(featureDic[features[j]])
                    PCond = (len(Dcxij) + 1) / float(len(Dcxi) + Nj)
                    mulPCond *= PCond
                P += Pcxi * mulPCond
            pDir[classLabel] = P
    
        if pDir["好瓜"] > pDir["坏瓜"]:
            preClass = "好瓜"
        else:
            preClass = "坏瓜"
    
        return pDir["好瓜"], pDir["坏瓜"], preClass
    
    
    def test_accuracy(dataSet, features, featureDic):
        cnt = 0
        for data in dataSet:
            _, _, pre = AODE(dataSet, data, features, featureDic)
            if (pre == '好瓜' and data[-1] == '1') or (pre == '坏瓜' and data[-1] == '0'):
                cnt += 1
        return cnt / float(len(dataSet))
    
    
    def main():
        dataSet, features ,featureDic = getDataSet()
        testdata = dataSet[random.randint(0, len(dataSet) - 1)]
        pG, pB, pre = AODE(dataSet, testdata, features, featureDic)
        print(testdata)
        print("pG = ", pG)
        print("pB = ", pB)
        print("pre = ", pre)
        print("real class = ", testdata[-1])
        print(test_accuracy(dataSet, features, featureDic))
    
    
    if __name__ == '__main__':
        main()
    
    ['浅白' '硬挺' '清脆' '模糊' '平坦' '硬滑' '0.245' '0.057' '0']
    pG =  0.0004809492073765314
    pB =  0.016070238820219938
    pre =  坏瓜
    real class =  0
    0.9411764705882353
    

    六、 贝叶斯网

    (1)贝叶斯网理论

    • 贝叶斯网是一种概率图模型,借助有向无环图来刻画属性之间的依赖关系,并使用条件概率表来描述属性的联合概率分布

    在这里插入图片描述
    上图就是一个简单的贝叶斯结构,给定P(a,b,c)联合概率,把代数表达式转换为几何图形,第一个式子表示ab给定的条件下c的概率,即从a,b各引一条边到c,第二个式子表示a给定的条件下b的概率,即从a引一条边到b,a没有给定条件,就没有边引入。
    贝叶斯网络的有向无环图的每个结点表示一个随机变量,它们可以是观察到的变量或隐变量,或未知参数,连接两个结点的箭头代表两个随机变量是具有“因果”关系,具有条件依赖关系,且两个结点会产生一个条件概率值
    在这里插入图片描述
    上图表示的是朴素贝叶斯的条件独立性假设,x1,x2,x3,x4只和y有关系,可以看作是有向边为0的有向无环图

    • 因为贝叶斯网结构有效表达了属性间的条件独立性,给定父结点集,贝叶斯网假设每个属性与它的非后裔属性独立,那么就有联合概率分布定义为:

    在这里插入图片描述
    在这里插入图片描述
    如上图,由于x1,x2,x3没有父结点,x4有x1,x2,x3三个父结点,x5有x1,x3两个父结点,x6有x4一个父结点,x7有x4,x5两个父结点,所以其联合概率分布为
    在这里插入图片描述

    • 贝叶斯网中三个变量之间的典型依赖关系
      在这里插入图片描述
      第一种结构为同父结构,表示在c给定的条件下,ab条件独立,或者称ab被c有向分离,下面的代数式为其证明过程,下同
      第二种结构为V型结构,表示在c未知的条件下,ab条件独立
      第三种结构为顺序结构,表示在c给定的条件下,ab条件独立
      在这里插入图片描述
      上图就是一个关于警报的贝叶斯网,Alarm受Burglary和Earthquake两个随机变量的影响,Johncalls和Marrycalls分别受Alarm的影响,有了贝叶斯网结构和条件概率表就可以计算任一个概率取值。如上图的求JohncallsMarrycalls,Alarm,非Burglary,非Earthquake同时发生的概率。

    (2)贝叶斯网的结构学习和参数学习

    • 结构学习(基于评分搜索):

    把所有的贝叶斯网络结构看为定义域,将衡量特定结构好坏的标准看为评分函数(基于信息论准则的评分函数:MDL评分函数,AIC评分函数,BIC评分函数),寻找最好的结构的过程。相当在定义域上求函数的最优值,即这是一个最优化问题。

    • 评分函数

    在这里插入图片描述

    • 搜索策略
      爬山算法——爬山法使用的搜索算子由3种,分别为加边、减边、转边;其中在加边和转边的使用时有一个前提就是不能有环;主要思想:爬山法从一个初始网络结构出发,通过三个搜索算子对当前网络结构进行修改,得到一系列候选网络结构,然后计算每个候选网络结构的评分,并选出评分最大的作为最优候选结构,如果最优候选结构的评分大于当前网络结构的评分,则以最优候选结构作为当前网络结构,继续搜索; 否则,就停止搜索,并返回当前网络结构。
    • 参数学习

    有了贝叶斯网结构,可在训练数据集D上通过经验估计求条件概率表

    • 贝叶斯网推断

    通过已知变量观测值来推测查询变量(西瓜色泽青绿,敲声浊响,根蒂蜷缩,推断它是否成熟,甜度如何),可以通过吉布斯采样算法完成

    1.已知贝叶斯网结构和条件概率表构建贝叶斯网

    import warnings
    from pgmpy.models import BayesianModel
    from pgmpy.factors.discrete import TabularCPD
    from pgmpy.inference import VariableElimination
    import networkx as nx
    from matplotlib import pyplot as plt
    warnings.filterwarnings("ignore")
    
    
    # 构建一个网络模型
    model = BayesianModel([('D', 'G'),   # 一条有向边,D ---> G
                           ('I', 'G'),   # I ---> G
                           ('G', 'L'),   # G ---> L
                           ('I', 'S')])  # I ---> S
    
    # 设置CPD参数
    cpd_d = TabularCPD(variable='D', variable_card=2, values=[[0.6], [0.4]])
    
    cpd_i = TabularCPD(variable='I', variable_card=2, values=[[0.7], [0.3]])
    
    cpd_g = TabularCPD(variable='G', variable_card=3,
                       values=[[0.3, 0.05, 0.9,  0.5],
                               [0.4, 0.25, 0.08, 0.3],
                               [0.3, 0.7,  0.02, 0.2]],
                       evidence=['I', 'D'],
                       evidence_card=[2, 2])
    
    cpd_l = TabularCPD(variable='L', variable_card=2,
                       values=[[0.1, 0.4, 0.99],
                               [0.9, 0.6, 0.01]],
                       evidence=['G'],
                       evidence_card=[3])
    
    cpd_s = TabularCPD(variable='S', variable_card=2,
                       values=[[0.95, 0.2],
                               [0.05, 0.8]],
                       evidence=['I'],
                       evidence_card=[2])
    
    model.add_cpds(cpd_d, cpd_i, cpd_g, cpd_l, cpd_s)  # 将概率分布表加入到贝叶斯网络中
    
    print(model.check_model())    # 验证模型数据的正确性(检测节点是否定义,概率和是否为1)
    
    print(model.get_cpds())   # 查看概率分布
    
    infer = VariableElimination(model)
    print('\n', 'P(G|D=0,I=1)')    # 计算条件分布 P(G∣D=0,I=1)
    print(infer.query(['G'], evidence={'D': 0, 'I': 1}))
    
    
    # 绘制网络结构图,并附上概率分布表
    nx.draw(model,
            with_labels=True,
            node_size=1000,
            font_weight='bold',
            node_color='y',
            pos={"L": [4.2, 3], "G": [4.2, 5], "S": [8, 5], "D": [2, 7], "I": [6, 7]})
    plt.text(2.5, 6.5, model.get_cpds("D"), fontsize=10, color='b')
    plt.text(6.5, 6.5, model.get_cpds("I"), fontsize=10, color='b')
    plt.text(1.4, 4, model.get_cpds("G"), fontsize=10, color='b')
    plt.text(4.5, 2.6, model.get_cpds("L"), fontsize=10, color='b')
    plt.text(7, 3.5, model.get_cpds("S"), fontsize=10, color='b')
    plt.show()
    
    True
    [<TabularCPD representing P(D:2) at 0x17fe059ba88>, <TabularCPD representing P(I:2) at 0x17fe441db88>, <TabularCPD representing P(G:3 | I:2, D:2) at 0x17fe4ae2448>, <TabularCPD representing P(L:2 | G:3) at 0x17fe48be5c8>, <TabularCPD representing P(S:2 | I:2) at 0x17fe4db8ec8>]
    
     P(G|D=0,I=1)
    +------+----------+
    | G    |   phi(G) |
    +======+==========+
    | G(0) |   0.9000 |
    +------+----------+
    | G(1) |   0.0800 |
    +------+----------+
    | G(2) |   0.0200 |
    +------+----------+
    

    在这里插入图片描述

    2.已知贝叶斯网结构进行参数学习

    import pandas as pd
    from pgmpy.models import BayesianModel
    from pgmpy.estimators import ParameterEstimator, MaximumLikelihoodEstimator
    from pgmpy.inference import VariableElimination
    import networkx as nx
    from matplotlib import pyplot as plt
    import warnings
    warnings.filterwarnings("ignore")
    
    data = pd.DataFrame(data={'fruit': ["banana", "apple", "banana", "apple", "banana","apple", "banana",
                                        "apple", "apple", "apple", "banana", "banana", "apple", "banana",],
                              'tasty': ["yes", "no", "yes", "yes", "yes", "yes", "yes",
                                        "yes", "yes", "yes", "yes", "no", "no", "no"],
                              'size': ["large", "large", "large", "small", "large", "large", "large",
                                        "small", "large", "large", "large", "large", "small", "small"]})
    
    print(data)
    
    model = BayesianModel([('fruit', 'tasty'), ('size', 'tasty')])
    
    pe = ParameterEstimator(model, data)
    print("\n", pe.state_counts('fruit'))
    print("\n", pe.state_counts('tasty'))  # 在fruit和size的条件下,tasty的频数
    
    # 极大似然估计
    mle = MaximumLikelihoodEstimator(model, data)
    
    print('\n', '='*100, '\n')
    print("\n", mle.estimate_cpd('fruit'))
    print("\n", mle.estimate_cpd('tasty'))  # 在fruit和size的条件下,tasty的概率分布
    
    model.fit(data, estimator=MaximumLikelihoodEstimator)
    
    print('\n', '='*100, '\n')
    # 概率分布
    print(model.get_cpds('fruit'))
    print(model.get_cpds('size'))
    print(model.get_cpds('tasty'))
    
    print('\n', '='*100, '\n')
    
    nx.draw(model,
            with_labels=True,
            node_size=1000,
            font_weight='bold',
            node_color='y',
            pos={"fruit": [5, 6], "tasty": [3.4, 4.5], "size": [2.5, 6]})
    
    plt.text(4.2, 5.7, model.get_cpds("fruit"), fontsize=10, color='b')
    plt.text(2.7, 4.6, model.get_cpds("tasty"), fontsize=10, color='b')
    plt.text(2.8, 5.7, model.get_cpds("size"), fontsize=10, color='b')
    
    plt.show()
    
    # 推断
    infer = VariableElimination(model)
    
    print('大,香蕉是美味的概率:\n', infer.query(['tasty'], evidence={'fruit': 1, 'size': 0}))  # 大,香蕉是否美味的概率
    
      fruit tasty   size
    0   banana   yes  large
    1    apple    no  large
    2   banana   yes  large
    3    apple   yes  small
    4   banana   yes  large
    5    apple   yes  large
    6   banana   yes  large
    7    apple   yes  small
    8    apple   yes  large
    9    apple   yes  large
    10  banana   yes  large
    11  banana    no  large
    12   apple    no  small
    13  banana    no  small
    
             fruit
    apple       7
    banana      7
    
     fruit apple       banana      
    size  large small  large small
    tasty                         
    no      1.0   1.0    1.0   1.0
    yes     3.0   2.0    5.0   0.0
    
     ==================================================================================================== 
    
    
     +---------------+-----+
    | fruit(apple)  | 0.5 |
    +---------------+-----+
    | fruit(banana) | 0.5 |
    +---------------+-----+
    
     +------------+--------------+--------------------+---------------------+---------------+
    | fruit      | fruit(apple) | fruit(apple)       | fruit(banana)       | fruit(banana) |
    +------------+--------------+--------------------+---------------------+---------------+
    | size       | size(large)  | size(small)        | size(large)         | size(small)   |
    +------------+--------------+--------------------+---------------------+---------------+
    | tasty(no)  | 0.25         | 0.3333333333333333 | 0.16666666666666666 | 1.0           |
    +------------+--------------+--------------------+---------------------+---------------+
    | tasty(yes) | 0.75         | 0.6666666666666666 | 0.8333333333333334  | 0.0           |
    +------------+--------------+--------------------+---------------------+---------------+
    
     ==================================================================================================== 
    
    +---------------+-----+
    | fruit(apple)  | 0.5 |
    +---------------+-----+
    | fruit(banana) | 0.5 |
    +---------------+-----+
    +-------------+----------+
    | size(large) | 0.714286 |
    +-------------+----------+
    | size(small) | 0.285714 |
    +-------------+----------+
    +------------+--------------+--------------------+---------------------+---------------+
    | fruit      | fruit(apple) | fruit(apple)       | fruit(banana)       | fruit(banana) |
    +------------+--------------+--------------------+---------------------+---------------+
    | size       | size(large)  | size(small)        | size(large)         | size(small)   |
    +------------+--------------+--------------------+---------------------+---------------+
    | tasty(no)  | 0.25         | 0.3333333333333333 | 0.16666666666666666 | 1.0           |
    +------------+--------------+--------------------+---------------------+---------------+
    | tasty(yes) | 0.75         | 0.6666666666666666 | 0.8333333333333334  | 0.0           |
    +------------+--------------+--------------------+---------------------+---------------+
    
     ==================================================================================================== 
    
    大,香蕉是美味的概率:
     +------------+--------------+
    | tasty      |   phi(tasty) |
    +============+==============+
    | tasty(no)  |       0.1667 |
    +------------+--------------+
    | tasty(yes) |       0.8333 |
    +------------+--------------+
    

    在这里插入图片描述

    3.通过数据集进行结构和参数学习

    import pandas as pd
    import numpy as np
    from pgmpy.estimators import BicScore
    from pgmpy.models import BayesianModel
    from pgmpy.estimators import ExhaustiveSearch, HillClimbSearch
    from pgmpy.estimators import BayesianEstimator
    import warnings
    import networkx as nx
    from matplotlib import pyplot as plt
    warnings.filterwarnings("ignore")
    
    # 随机生成数据样本,包括三个变量,其中Z变量依赖于X,Y变量
    data = pd.DataFrame(np.random.randint(0, 4, size=(5000, 2)), columns=list('XY'))
    data['Z'] = data['X'] + data['Y']
    print(data)
    
    es = ExhaustiveSearch(data, scoring_method=BicScore(data))  # 对于几个节点,可用穷举法
    best_model = es.estimate()
    print("\nAll DAGs by score:")
    for score, dag in reversed(es.all_scores()):
        print(score, dag.edges())
    
    print(best_model.edges())
    
    # 学习到了DAG结构,根据这个结构学习CPD参数
    model = BayesianModel(best_model.edges())
    
    model.fit(data, estimator=BayesianEstimator)
    
    # 概率分布
    print(model.get_cpds('X'))
    print(model.get_cpds('Y'))
    print(model.get_cpds('Z'))
    
    nx.draw(model,
            with_labels=True,
            node_size=1000,
            font_weight='bold',
            node_color='y',
            pos={"X": [5, 4], "Y": [2, 4.5], "Z": [2.5, 6]})
    
    plt.text(4.2, 4, model.get_cpds("X"), fontsize=7, color='b')
    plt.text(2.1, 4, model.get_cpds("Y"), fontsize=7, color='b')
    plt.text(2.5, 4.8, model.get_cpds("Z"), fontsize=6, color='b')
    
    plt.show()
    print(model.cpds)
    
    print('\n', '='*500, '\n')
    
    # 对于多个节点可用爬山法
    data = pd.DataFrame(np.random.randint(0, 3, size=(2500, 8)), columns=list('ABCDEFGH'))
    data['A'] += data['B'] + data['C']
    data['H'] = data['G'] - data['A']
    print(data)
    
    hc = HillClimbSearch(data, scoring_method=BicScore(data))
    best_model = hc.estimate()
    edges = best_model.edges()
    print(edges)
    
    # 学习到了DAG结构,根据这个结构学习CPD参数
    model = BayesianModel(edges)
    
    model.fit(data, estimator=BayesianEstimator)
    
    # 概率分布
    print(model.get_cpds('A'))
    print(model.get_cpds('G'))
    print(model.get_cpds('B'))
    print(model.get_cpds('C'))
    print(model.get_cpds('H'))
    
    nx.draw(model,
            with_labels=True,
            node_size=1000,
            font_weight='bold',
            node_color='y',
            pos={"A": [3, 6], "C": [2, 5], "H": [6, 5], "B": [2.5, 4], "G": [5.5, 4],})
    
    plt.text(1.7, 5.2, model.get_cpds("A"), fontsize=5.5, color='b')
    plt.text(2.5, 4, model.get_cpds("B"), fontsize=5.5, color='b')
    plt.text(2, 4.5, model.get_cpds("C"), fontsize=5.5, color='b')
    plt.text(5.5, 4, model.get_cpds("G"), fontsize=5.5, color='b')
    plt.text(5.5, 4.5, model.get_cpds("H"), fontsize=5.5, color='b')
    
    plt.show()
    print(model.cpds)
    
         X  Y  Z
    0     0  2  2
    1     3  1  4
    2     0  2  2
    3     2  3  5
    4     3  1  4
    ...  .. .. ..
    4995  0  3  3
    4996  3  3  6
    4997  1  2  3
    4998  2  1  3
    4999  2  0  2
    
    [5000 rows x 3 columns]
    
    All DAGs by score:
    -14295.447228090614 [('X', 'Z'), ('Y', 'Z')]
    -14327.233960660378 [('Y', 'X'), ('Z', 'X'), ('Z', 'Y')]
    -14327.233960660378 [('X', 'Y'), ('Z', 'X'), ('Z', 'Y')]
    -14327.233960660378 [('X', 'Y'), ('X', 'Z'), ('Z', 'Y')]
    -14327.233960660378 [('X', 'Y'), ('X', 'Z'), ('Y', 'Z')]
    -14327.23396066038 [('Y', 'Z'), ('Y', 'X'), ('Z', 'X')]
    -14327.23396066038 [('X', 'Z'), ('Y', 'Z'), ('Y', 'X')]
    -16514.835832156296 [('Y', 'X'), ('Z', 'X')]
    -16515.715374631058 [('X', 'Y'), ('Z', 'Y')]
    -18724.781181338916 [('Z', 'X'), ('Z', 'Y')]
    -18724.781181338916 [('X', 'Z'), ('Z', 'Y')]
    -18724.78118133892 [('Y', 'Z'), ('Z', 'X')]
    -20912.383052834834 [('Z', 'X')]
    -20912.383052834834 [('X', 'Z')]
    -20913.262595309596 [('Z', 'Y')]
    -20913.262595309596 [('Y', 'Z')]
    -20944.169785404596 [('X', 'Y'), ('Z', 'X')]
    -20944.169785404596 [('X', 'Y'), ('X', 'Z')]
    -20944.1697854046 [('X', 'Z'), ('Y', 'X')]
    -20945.04932787936 [('X', 'Y'), ('Y', 'Z')]
    -20945.049327879362 [('Y', 'X'), ('Z', 'Y')]
    -20945.049327879362 [('Y', 'Z'), ('Y', 'X')]
    -23100.864466805513 []
    -23132.651199375276 [('X', 'Y')]
    -23132.65119937528 [('Y', 'X')]
    [('X', 'Z'), ('Y', 'Z')]
    +------+----------+
    | X(0) | 0.255594 |
    +------+----------+
    | X(1) | 0.247403 |
    +------+----------+
    | X(2) | 0.246603 |
    +------+----------+
    | X(3) | 0.2504   |
    +------+----------+
    +------+----------+
    | Y(0) | 0.2504   |
    +------+----------+
    | Y(1) | 0.240809 |
    +------+----------+
    | Y(2) | 0.251798 |
    +------+----------+
    | Y(3) | 0.256993 |
    +------+----------+
    +------+------------------------+-----------------------+------------------------+------------------------+-----------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+
    | X    | X(0)                   | X(0)                  | X(0)                   | X(0)                   | X(1)                  | X(1)                   | X(1)                   | X(1)                   | X(2)                   | X(2)                   | X(2)                   | X(2)                   | X(3)                   | X(3)                   | X(3)                   | X(3)                   |
    +------+------------------------+-----------------------+------------------------+------------------------+-----------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+
    | Y    | Y(0)                   | Y(1)                  | Y(2)                   | Y(3)                   | Y(0)                  | Y(1)                   | Y(2)                   | Y(3)                   | Y(0)                   | Y(1)                   | Y(2)                   | Y(3)                   | Y(0)                   | Y(1)                   | Y(2)                   | Y(3)                   |
    +------+------------------------+-----------------------+------------------------+------------------------+-----------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+
    | Z(0) | 0.9991139726512897     | 0.0001496513124420102 | 0.00013003562976255498 | 0.00013313806417254698 | 0.0001443293017348383 | 0.00013556380988531306 | 0.00015926102882624627 | 0.00013980930011464366 | 0.00014526860164444064 | 0.00015983121823354545 | 0.00013765382815296095 | 0.00013807958907514293 | 0.00013353630852228727 | 0.00014965131244201014 | 0.00014294290860230428 | 0.00014479742839767167 |
    +------+------------------------+-----------------------+------------------------+------------------------+-----------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+
    | Z(1) | 0.00014767122478513846 | 0.9991020921253484    | 0.00013003562976255498 | 0.00013313806417254698 | 0.9991340241895914    | 0.00013556380988531306 | 0.00015926102882624627 | 0.00013980930011464366 | 0.00014526860164444064 | 0.00015983121823354545 | 0.00013765382815296095 | 0.00013807958907514293 | 0.00013353630852228727 | 0.00014965131244201014 | 0.00014294290860230428 | 0.00014479742839767167 |
    +------+------------------------+-----------------------+------------------------+------------------------+-----------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+
    | Z(2) | 0.00014767122478513846 | 0.0001496513124420102 | 0.9992197862214249     | 0.00013313806417254698 | 0.0001443293017348383 | 0.9991866171406883     | 0.00015926102882624627 | 0.00013980930011464366 | 0.9991283883901336     | 0.00015983121823354545 | 0.00013765382815296095 | 0.00013807958907514293 | 0.00013353630852228727 | 0.00014965131244201014 | 0.00014294290860230428 | 0.00014479742839767167 |
    +------+------------------------+-----------------------+------------------------+------------------------+-----------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+
    | Z(3) | 0.00014767122478513846 | 0.0001496513124420102 | 0.00013003562976255498 | 0.999201171614965      | 0.0001443293017348383 | 0.00013556380988531306 | 0.9990444338270429     | 0.00013980930011464366 | 0.00014526860164444064 | 0.9990410126905991     | 0.00013765382815296095 | 0.00013807958907514293 | 0.9991987821488666     | 0.00014965131244201014 | 0.00014294290860230428 | 0.00014479742839767167 |
    +------+------------------------+-----------------------+------------------------+------------------------+-----------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+
    | Z(4) | 0.00014767122478513846 | 0.0001496513124420102 | 0.00013003562976255498 | 0.00013313806417254698 | 0.0001443293017348383 | 0.00013556380988531306 | 0.00015926102882624627 | 0.9991611441993122     | 0.00014526860164444064 | 0.00015983121823354545 | 0.9991740770310823     | 0.00013807958907514293 | 0.00013353630852228727 | 0.9991020921253481     | 0.00014294290860230428 | 0.00014479742839767167 |
    +------+------------------------+-----------------------+------------------------+------------------------+-----------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+
    | Z(5) | 0.00014767122478513846 | 0.0001496513124420102 | 0.00013003562976255498 | 0.00013313806417254698 | 0.0001443293017348383 | 0.00013556380988531306 | 0.00015926102882624627 | 0.00013980930011464366 | 0.00014526860164444064 | 0.00015983121823354545 | 0.00013765382815296095 | 0.9991715224655492     | 0.00013353630852228727 | 0.00014965131244201014 | 0.9991423425483863     | 0.00014479742839767167 |
    +------+------------------------+-----------------------+------------------------+------------------------+-----------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+
    | Z(6) | 0.00014767122478513846 | 0.0001496513124420102 | 0.00013003562976255498 | 0.00013313806417254698 | 0.0001443293017348383 | 0.00013556380988531306 | 0.00015926102882624627 | 0.00013980930011464366 | 0.00014526860164444064 | 0.00015983121823354545 | 0.00013765382815296095 | 0.00013807958907514293 | 0.00013353630852228727 | 0.00014965131244201014 | 0.00014294290860230428 | 0.9991312154296139     |
    +------+------------------------+-----------------------+------------------------+------------------------+-----------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+
    [<TabularCPD representing P(X:4) at 0x26944dfe988>, <TabularCPD representing P(Z:7 | X:4, Y:4) at 0x26945013888>, <TabularCPD representing P(Y:4) at 0x2694501c8c8>]
    
     ==================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================== 
    
          A  B  C  D  E  F  G  H
    0     4  2  2  2  2  1  2 -2
    1     0  0  0  2  0  1  1  1
    2     2  0  1  2  0  2  2  0
    3     4  1  1  0  0  0  1 -3
    4     5  1  2  1  0  2  1 -4
    ...  .. .. .. .. .. .. .. ..
    2495  1  0  1  1  0  1  1  0
    2496  4  1  2  0  2  2  0 -4
    2497  1  1  0  1  2  0  2  1
    2498  1  0  0  0  0  0  1  0
    2499  4  0  2  1  0  1  1 -3
    
    [2500 rows x 8 columns]
    [('A', 'B'), ('A', 'C'), ('B', 'C'), ('G', 'A'), ('G', 'H'), ('H', 'A')]
    +------+-----------------------+-----------------------+------------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+----------------------+------------------------+-----------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+---------------------+------------------------+------------------------+-----------------------+-----------------------+
    | G    | G(0)                  | G(0)                  | G(0)                   | G(0)                   | G(0)                   | G(0)                  | G(0)                  | G(0)                | G(0)                | G(1)                | G(1)                 | G(1)                   | G(1)                  | G(1)                   | G(1)                   | G(1)                  | G(1)                  | G(1)                | G(2)                | G(2)                | G(2)                  | G(2)                  | G(2)                | G(2)                   | G(2)                   | G(2)                  | G(2)                  |
    +------+-----------------------+-----------------------+------------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+----------------------+------------------------+-----------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+---------------------+------------------------+------------------------+-----------------------+-----------------------+
    | H    | H(-6)                 | H(-5)                 | H(-4)                  | H(-3)                  | H(-2)                  | H(-1)                 | H(0)                  | H(1)                | H(2)                | H(-6)               | H(-5)                | H(-4)                  | H(-3)                 | H(-2)                  | H(-1)                  | H(0)                  | H(1)                  | H(2)                | H(-6)               | H(-5)               | H(-4)                 | H(-3)                 | H(-2)               | H(-1)                  | H(0)                   | H(1)                  | H(2)                  |
    +------+-----------------------+-----------------------+------------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+----------------------+------------------------+-----------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+---------------------+------------------------+------------------------+-----------------------+-----------------------+
    | A(0) | 0.0009386146048432514 | 0.0002614515791675382 | 0.00015919004107103055 | 0.00011853397183632825 | 0.00014601098002569788 | 0.0002999940001199976 | 0.9943683123709408    | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.000821962847279303 | 0.00021651582730697615 | 0.0001328162354566222 | 0.00013553808620222278 | 0.00014682131845543967 | 0.0002694401034649997 | 0.9959492303537674    | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.0011410314924691922 | 0.0002539231120816617 | 0.00016619025460347 | 0.00012526932905747353 | 0.00012351473530792219 | 0.0003218953196420524 | 0.9941611521992996    |
    +------+-----------------------+-----------------------+------------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+----------------------+------------------------+-----------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+---------------------+------------------------+------------------------+-----------------------+-----------------------+
    | A(1) | 0.0009386146048432514 | 0.0002614515791675382 | 0.00015919004107103055 | 0.00011853397183632825 | 0.00014601098002569788 | 0.9982000359992801    | 0.0009386146048432516 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.000821962847279303 | 0.00021651582730697615 | 0.0001328162354566222 | 0.00013553808620222278 | 0.00014682131845543967 | 0.9983833593792101    | 0.0006751282743721308 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.0011410314924691922 | 0.0002539231120816617 | 0.00016619025460347 | 0.00012526932905747353 | 0.00012351473530792219 | 0.9980686280821478    | 0.0009731413001167772 |
    +------+-----------------------+-----------------------+------------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+----------------------+------------------------+-----------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+---------------------+------------------------+------------------------+-----------------------+-----------------------+
    | A(2) | 0.0009386146048432514 | 0.0002614515791675382 | 0.00015919004107103055 | 0.00011853397183632825 | 0.9991239341198456     | 0.0002999940001199976 | 0.0009386146048432516 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.000821962847279303 | 0.00021651582730697615 | 0.0001328162354566222 | 0.00013553808620222278 | 0.9991190720892671     | 0.0002694401034649997 | 0.0006751282743721308 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.0011410314924691922 | 0.0002539231120816617 | 0.00016619025460347 | 0.00012526932905747353 | 0.9992589115881523     | 0.0003218953196420524 | 0.0009731413001167772 |
    +------+-----------------------+-----------------------+------------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+----------------------+------------------------+-----------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+---------------------+------------------------+------------------------+-----------------------+-----------------------+
    | A(3) | 0.0009386146048432514 | 0.0002614515791675382 | 0.00015919004107103055 | 0.9992887961689818     | 0.00014601098002569788 | 0.0002999940001199976 | 0.0009386146048432516 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.000821962847279303 | 0.00021651582730697615 | 0.0001328162354566222 | 0.9991867714827865     | 0.00014682131845543967 | 0.0002694401034649997 | 0.0006751282743721308 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.0011410314924691922 | 0.0002539231120816617 | 0.00016619025460347 | 0.999248384025655      | 0.00012351473530792219 | 0.0003218953196420524 | 0.0009731413001167772 |
    +------+-----------------------+-----------------------+------------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+----------------------+------------------------+-----------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+---------------------+------------------------+------------------------+-----------------------+-----------------------+
    | A(4) | 0.0009386146048432514 | 0.0002614515791675382 | 0.9990448597535737     | 0.00011853397183632825 | 0.00014601098002569788 | 0.0002999940001199976 | 0.0009386146048432516 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.000821962847279303 | 0.00021651582730697615 | 0.9992031025872602    | 0.00013553808620222278 | 0.00014682131845543967 | 0.0002694401034649997 | 0.0006751282743721308 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.0011410314924691922 | 0.0002539231120816617 | 0.999002858472379   | 0.00012526932905747353 | 0.00012351473530792219 | 0.0003218953196420524 | 0.0009731413001167772 |
    +------+-----------------------+-----------------------+------------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+----------------------+------------------------+-----------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+---------------------+------------------------+------------------------+-----------------------+-----------------------+
    | A(5) | 0.0009386146048432514 | 0.9984312905249948    | 0.00015919004107103055 | 0.00011853397183632825 | 0.00014601098002569788 | 0.0002999940001199976 | 0.0009386146048432516 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.000821962847279303 | 0.9987009050361582     | 0.0001328162354566222 | 0.00013553808620222278 | 0.00014682131845543967 | 0.0002694401034649997 | 0.0006751282743721308 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.0011410314924691922 | 0.9984764613275101    | 0.00016619025460347 | 0.00012526932905747353 | 0.00012351473530792219 | 0.0003218953196420524 | 0.0009731413001167772 |
    +------+-----------------------+-----------------------+------------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+----------------------+------------------------+-----------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+---------------------+------------------------+------------------------+-----------------------+-----------------------+
    | A(6) | 0.9943683123709405    | 0.0002614515791675382 | 0.00015919004107103055 | 0.00011853397183632825 | 0.00014601098002569788 | 0.0002999940001199976 | 0.0009386146048432516 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.9950682229163242   | 0.00021651582730697615 | 0.0001328162354566222 | 0.00013553808620222278 | 0.00014682131845543967 | 0.0002694401034649997 | 0.0006751282743721308 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.9931538110451849    | 0.0002539231120816617 | 0.00016619025460347 | 0.00012526932905747353 | 0.00012351473530792219 | 0.0003218953196420524 | 0.0009731413001167772 |
    +------+-----------------------+-----------------------+------------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+----------------------+------------------------+-----------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+---------------------+------------------------+------------------------+-----------------------+-----------------------+
    +------+----------+
    | G(0) | 0.326015 |
    +------+----------+
    | G(1) | 0.345975 |
    +------+----------+
    | G(2) | 0.328011 |
    +------+----------+
    +------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+
    | A    | A(0)                  | A(1)                  | A(2)                | A(3)                | A(4)                | A(5)                  | A(6)                  |
    +------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+
    | B(0) | 0.9949723479135243    | 0.6856282119440014    | 0.5093465674110835  | 0.30210223835450695 | 0.1605408839277611  | 0.0007265329845975006 | 0.0028441410693970416 |
    +------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+
    | B(1) | 0.0025138260432378077 | 0.31348573453836615   | 0.3373862696443341  | 0.4259679370840895  | 0.35302659043470364 | 0.34859052600988083   | 0.0028441410693970416 |
    +------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+
    | B(2) | 0.0025138260432378077 | 0.0008860535176324649 | 0.15326716294458229 | 0.27192982456140347 | 0.4864325256375351  | 0.6506829410055216    | 0.9943117178612059    |
    +------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+
    +------+-----------------------+--------------------+--------------------+-----------------------+-----------------------+--------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+--------------------+-----------------------+-----------------------+--------------------+--------------------+-----------------------+
    | A    | A(0)                  | A(0)               | A(0)               | A(1)                  | A(1)                  | A(1)               | A(2)                | A(2)                   | A(2)                  | A(3)                   | A(3)                | A(3)                   | A(4)                  | A(4)                   | A(4)                | A(5)               | A(5)                  | A(5)                  | A(6)               | A(6)               | A(6)                  |
    +------+-----------------------+--------------------+--------------------+-----------------------+-----------------------+--------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+--------------------+-----------------------+-----------------------+--------------------+--------------------+-----------------------+
    | B    | B(0)                  | B(1)               | B(2)               | B(0)                  | B(1)                  | B(2)               | B(0)                | B(1)                   | B(2)                  | B(0)                   | B(1)                | B(2)                   | B(0)                  | B(1)                   | B(2)                | B(0)               | B(1)                  | B(2)                  | B(0)               | B(1)               | B(2)                  |
    +------+-----------------------+--------------------+--------------------+-----------------------+-----------------------+--------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+--------------------+-----------------------+-----------------------+--------------------+--------------------+-----------------------+
    | C(0) | 0.998315647633485     | 0.3333333333333333 | 0.3333333333333333 | 0.5214956491772206    | 0.9981156962502357    | 0.3333333333333333 | 0.35152105662011474 | 0.5770205115632916     | 0.9982011153085089    | 0.00041718815185648727 | 0.30599443754068284 | 0.5494067482387838     | 0.0009421518748822309 | 0.00042844901456726646 | 0.37251243781094523 | 0.3333333333333333 | 0.0006947339169098235 | 0.0003721899657585231 | 0.3333333333333333 | 0.3333333333333333 | 0.0009534706331045003 |
    +------+-----------------------+--------------------+--------------------+-----------------------+-----------------------+--------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+--------------------+-----------------------+-----------------------+--------------------+--------------------+-----------------------+
    | C(1) | 0.0008421761832575375 | 0.3333333333333333 | 0.3333333333333333 | 0.4780735762901697    | 0.0009421518748822311 | 0.3333333333333333 | 0.3447006603875717  | 0.42257089155838845    | 0.0008994423457456378 | 0.4682519816437213     | 0.3395467187407539  | 0.45012977382276603    | 0.0009421518748822309 | 0.529477292202228      | 0.3333333333333333  | 0.3333333333333333 | 0.0006947339169098235 | 0.48808992109572724   | 0.3333333333333333 | 0.3333333333333333 | 0.0009534706331045003 |
    +------+-----------------------+--------------------+--------------------+-----------------------+-----------------------+--------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+--------------------+-----------------------+-----------------------+--------------------+--------------------+-----------------------+
    | C(2) | 0.0008421761832575375 | 0.3333333333333333 | 0.3333333333333333 | 0.0004307745326096321 | 0.0009421518748822311 | 0.3333333333333333 | 0.3037782829923135  | 0.00040859687831984963 | 0.0008994423457456378 | 0.5313308302044222     | 0.35445884371856323 | 0.00046347793845012973 | 0.9981156962502354    | 0.47009425878320477    | 0.2941542288557214  | 0.3333333333333333 | 0.9986105321661803    | 0.5115378889385142    | 0.3333333333333333 | 0.3333333333333333 | 0.998093058733791     |
    +------+-----------------------+--------------------+--------------------+-----------------------+-----------------------+--------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+--------------------+-----------------------+-----------------------+--------------------+--------------------+-----------------------+
    +-------+-----------------------+------------------------+------------------------+
    | G     | G(0)                  | G(1)                   | G(2)                   |
    +-------+-----------------------+------------------------+------------------------+
    | H(-6) | 0.034512471655328794  | 0.00021367521367521362 | 0.00022537750732476897 |
    +-------+-----------------------+------------------------+------------------------+
    | H(-5) | 0.12390022675736959   | 0.037136752136752126   | 0.00022537750732476897 |
    +-------+-----------------------+------------------------+------------------------+
    | H(-4) | 0.20349206349206345   | 0.14098290598290597    | 0.028217263917061076   |
    +-------+-----------------------+------------------------+------------------------+
    | H(-3) | 0.2732879818594104    | 0.2298290598290598     | 0.12679738562091503    |
    +-------+-----------------------+------------------------+------------------------+
    | H(-2) | 0.22185941043083895   | 0.22521367521367516    | 0.1937345052963714     |
    +-------+-----------------------+------------------------+------------------------+
    | H(-1) | 0.10798185941043081   | 0.20790598290598286    | 0.25702050935316656    |
    +-------+-----------------------+------------------------+------------------------+
    | H(0)  | 0.034512471655328794  | 0.11329059829059827    | 0.2606716249718278     |
    +-------+-----------------------+------------------------+------------------------+
    | H(1)  | 0.0002267573696145124 | 0.045213675213675204   | 0.10002253775073247    |
    +-------+-----------------------+------------------------+------------------------+
    | H(2)  | 0.0002267573696145124 | 0.00021367521367521362 | 0.03308541807527609    |
    +-------+-----------------------+------------------------+------------------------+
    [<TabularCPD representing P(A:7 | G:3, H:9) at 0x269465c8b08>, <TabularCPD representing P(B:3 | A:7) at 0x269465ef888>, <TabularCPD representing P(C:3 | A:7, B:3) at 0x269465ef908>, <TabularCPD representing P(G:3) at 0x269465f3288>, <TabularCPD representing P(H:9 | G:3) at 0x269465f33c8>]
    

    在这里插入图片描述
    在这里插入图片描述
    参考资料
    1.周志华,机器学习,清华大学出版社
    2.李航,统计学习方法(第二版),清华大学出版社
    3.垃圾邮件分类和新闻分类数据集:https://github.com/Jack-Cherish/Machine-Learning
    4.视频参考1:https://www.bilibili.com/video/BV16t411Q7TM
    5.视频参考2:https://www.bilibili.com/video/BV1Tb411H7uC
    6.贝叶斯网参考:https://blog.csdn.net/GnahzNib/article/details/70244175
    7.贝叶斯网参考:https://blog.csdn.net/weixin_41599977/article/details/90320390

    展开全文
  • 多项式朴素贝叶斯分类器In Analytics Vidhya, Hackathon, there was a problem statement for text prediction of topic/subject to which class it belongs basis on title and abstract. To solve this question ...

    多项式朴素贝叶斯分类器

    In Analytics Vidhya, Hackathon, there was a problem statement for text prediction of topic/subject to which class it belongs basis on title and abstract. To solve this question of prediction problem I have applied Multinomial Naive Bayes classifier supervised algorithm.

    在 Hackathon的Analytics Vidhya中,存在一个问题说明,用于根据标题和摘要对主题/主题进行文本预测。 为了解决这个预测问题,我应用了多项朴素贝叶斯分类器监督算法。

    In this blog, I have covered the importance of the Naive Bayes classifier, its types, and the actual implementation of the algorithm for the given problem statement.

    在此博客中,我介绍了朴素贝叶斯分类器的重要性,其类型以及针对给定问题陈述的算法的实际实现。

    什么是朴素贝叶斯? 为什么? (What is Naive Bayes? and Why?)

    Naive Bayes Classifier Algorithm is a family of probabilistic algorithms based on applying Bayes’ theorem with the “naive” on the basis of two following assumption:

    朴素贝叶斯分类器算法是一系列概率算法,基于以下两个假设,将贝叶斯定理与“朴素”一起应用:

    1. Predictors are independent of each other.

      预测变量彼​​此独立。
    2. All features have an equal effect on the outcome.

      所有功能对结果都有同等的影响。

    Bayes theorem calculates probability P(c|x) where c is the class of the possible outcomes and x is the given instance which has to be classified, representing some certain features.

    贝叶斯定理计算概率P(c | x),其中c是可能结果的类别,x是必须分类的给定实例,代表某些特征。

    P(c|x) = P(x|c) * P(c) / P(x)

    P(c|x) = P(x|c) * P(c) / P(x)

    Naive Bayes is mostly used in natural language processing (NLP) problems. Naive Bayes predicts the tag of a text. They calculate the probability of each tag for a given text and then output the tag with the highest one.

    朴素贝叶斯主要用于自然语言处理(NLP)问题。 朴素贝叶斯(Naive Bayes)预测文本的标签。 他们计算给定文本的每个标签的概率,然后输出最高标签的标签。

    朴素贝叶斯的类型 (Types of Naive Bayes)

    1. Multinomial Naive Bayes — Whether a document/topic belongs to a particular category. The features/predictors used by the classifier are the frequency of the words present in the document.

      多项式朴素贝叶斯-文档/主题是否属于特定类别。 分类器使用的功能/预测词是文档中出现的单词的频率。
    2. Bernoulli Naive Bayes- Similar to above, but only predicts the boolean variables, The parameters are used to predict the class variable yes or no, For example, a word occurs in the text or not.

      Bernoulli Naive Bayes-与上面类似,但仅预测布尔变量,该参数用于预测类变量yes或no,例如,文本中是否出现单词。
    3. Gaussian Naive Bayes: When the predictors take up the continuous value and are not discrete, we assume that values are sampled from Gaussian distribution.

      高斯朴素贝叶斯(Gaussian Naive Bayes):当预测变量采用连续值且不是离散值时,我们假设值是从高斯分布中采样的。

    朴素贝叶斯的缺点: (Disadvantages of Naive Bayes:)

    The requirement of predictors need to be independent.

    预测变量的需求必须独立。

    Hackathon问题: (Hackathon Problem:)

    Given the abstract and title for a set of research articles, predict the topics for each article included in the test set. This can be read more into detail.

    给定一组研究文章的摘要和标题,预测测试集中包含的每篇文章的主题。 这可以更详细地阅读

    So we have train.csv, test.csv, and sample_submission.csv. Now we have to build the model for prediction of the particular topic to which class it belongs.

    因此,我们有了train.csv,test.csv和sample_submission.csv。 现在,我们必须构建模型以预测特定主题所属的类别。

    Let’s see the actual implementation in detail. Code is available on Github

    让我们详细了解实际的实现。 可以在Github上找到代码

    import logging
    import pandas as pd
    import numpy as np
    from numpy import random
    import gensim
    import nltk
    from sklearn.model_selection import train_test_split
    from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
    from sklearn.metrics import accuracy_score, confusion_matrix
    import matplotlib.pyplot as plt
    from nltk.corpus import stopwords
    import re
    from bs4 import BeautifulSoup
    import matplotlib.pyplot as plt
    %matplotlib inline
    
    
    #Input the filename
    train=pd.read_csv('train.csv',index_col=0)
    
    
    #Function to describe input data
    def describe_data(df):
        print("Data Types:")
        print(df.dtypes)
        print("Rows and Columns:")
        print(df.shape)
        print("Column Names:")
        print(df.columns)
        print("Null Values:")
        print(df.apply(lambda x: sum(x.isnull()) / len(df)))
        
    describe_data(train)

    In the below steps, we will train the model with text and for that, we need to convert it into the form of vectors.

    在以下步骤中,我们将使用文本训练模型,为此,我们需要将其转换为向量形式。

    #Consider the input values for X and y
    X=train['TITLE']
    y=train['Quantitative Finance']
    
    
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
    
    
    #Convert the text into vector form
    from sklearn.feature_extraction.text import CountVectorizer
    cv = CountVectorizer(strip_accents='ascii', token_pattern=u'(?ui)\\b\\w*[a-z]+\\w*\\b', lowercase=True, stop_words='english')
    X_train_cv = cv.fit_transform(X_train)
    X_test_cv = cv.transform(X_test)
    
    
    #Calculate the Word_freq count
    word_freq_df = pd.DataFrame(X_train_cv.toarray(), columns=cv.get_feature_names())
    
    
    top_words_df = pd.DataFrame(word_freq_df.sum()).sort_values(0, ascending=False)
    print(top_words_df)

    Now, we will define the Multinomial model and train it. Also print classification report, Precision score, Recall, and accuracy.

    现在,我们将定义多项式模型并对其进行训练。 还可以打印分类报告,精度得分,召回率和准确性。

    #Training the model
    from sklearn.naive_bayes import MultinomialNB
    naive_bayes = MultinomialNB()
    naive_bayes.fit(X_train_cv, y_train)
    predictions = naive_bayes.predict(X_test_cv)
    
    
    #Accuracy and Classification report
    from sklearn.metrics import accuracy_score, precision_score, recall_score,classification_report
    print('Accuracy score: ', accuracy_score(y_test, predictions))
    print('Precision score: ', precision_score(y_test, predictions))
    print('Classification_report',classification_report(y_test,predictions))
    print('Recall score: ', recall_score(y_test, predictions))
    
    
    from sklearn.metrics import confusion_matrix
    import matplotlib.pyplot as plt
    import seaborn as sns
    cm = confusion_matrix(y_test, predictions)
    sns.heatmap(cm, square=True, annot=True, cmap='RdBu', cbar=False,
    xticklabels=['0', '1'], yticklabels=['0', '1'])
    plt.xlabel('true label')
    plt.ylabel('predicted label')
    
    
    testing_predictions = []
    for i in range(len(X_test)):
        if predictions[i] == 1:
            testing_predictions.append('1')
        else:
            testing_predictions.append('0')
    check_df = pd.DataFrame({'actual_label': list(y_test), 'prediction': testing_predictions, 'TITLE':list(X_test)})
    Accuracy score:  0.9876042908224076
    Precision score: 0.75
    Classification_report precision recall f1-score support
    0 0.99 1.00 0.99 4141
    1 0.75 0.06 0.10 54
    accuracy 0.99 4195
    macro avg 0.87 0.53 0.55 4195
    weighted avg 0.98 0.99 0.98 4195
    Recall score: 0.05555555555555555
    Image for post
    Predictions of labels
    标签的预测

    Now it’s time to apply the prediction for unknown data i.e test file. For that, we will pickle the model initially and then will load the model and save the predictions to the .csv file.

    现在是时候对未知数据(即测试文件)应用预测了。 为此,我们将首先对模型进行酸洗,然后加载模型并将预测结果保存到.csv文件中。

    #import the model in form of pickle
    import pickle
    with open('text_classifier', 'wb') as picklefile:
        pickle.dump(naive_bayes,picklefile)
        
    #Load the model
    with open('text_classifier', 'rb') as training_model:
        model = pickle.load(training_model)
    
    
    #input the test file for prediction
    test=pd.read_csv('n5.csv',error_bad_lines=False,skipinitialspace=False)
    test
    
    
    label=test['TITLE']
    
    
    #transform the text into label
    new_test = cv.transform(label)
    
    
    predictions2=model.predict(new_test)
    
    
    testing_predictions2 = []
    for i in range(len(label)):
        check_df2 = pd.DataFrame({'Quantitative Finance':predictions2})
        
    test = test.set_index(check_df2.index)
    
    
    test['Quantitative Finance']=check_df2
    test
    
    
    test.to_csv('Submission.csv',index=False)

    In the end, the submissions are submitted in the prescribed format.

    最后,提交内容以规定的格式提交。

    Enjoy predicting!!!

    享受预测!

    翻译自: https://medium.com/@monicamundada5/prediction-of-topics-using-multinomial-naive-bayes-classifier-2fb6f88e836f

    多项式朴素贝叶斯分类器

    展开全文
  • 让我从一个例子开始讲起,你会看到贝叶斯分类器很好懂,一点都不难。 某个医院早上收了六个门诊病人,如下表。 症状 职业 疾病 打喷嚏 护士 感冒 打喷嚏 农夫 过敏 头痛 建筑工人 脑震荡 头痛 建筑...

    一、病人分类的例子

    让我从一个例子开始讲起,你会看到贝叶斯分类器很好懂,一点都不难。

    某个医院早上收了六个门诊病人,如下表。

    症状 职业 疾病
    打喷嚏 护士 感冒
    打喷嚏 农夫 过敏
    头痛 建筑工人 脑震荡
    头痛 建筑工人 感冒
    打喷嚏 教师 感冒
    头痛 教师 脑震荡

    现在又来了第七个病人,是一个打喷嚏的建筑工人。请问他患上感冒的概率有多大?

    根据贝叶斯定理:

     P(A|B) = P(B|A) P(A) / P(B)
    

    可得

       P(感冒|打喷嚏x建筑工人)
        = P(打喷嚏x建筑工人|感冒) x P(感冒)
        / P(打喷嚏x建筑工人)
    

    假定"打喷嚏"和"建筑工人"这两个特征是独立的,因此,上面的等式就变成了

       P(感冒|打喷嚏x建筑工人)
        = P(打喷嚏|感冒) x P(建筑工人|感冒) x P(感冒)
        / P(打喷嚏) x P(建筑工人)
    

    这是可以计算的。

      P(感冒|打喷嚏x建筑工人)
        = 0.66 x 0.33 x 0.5 / 0.5 x 0.33
        = 0.66
    

    因此,这个打喷嚏的建筑工人,有66%的概率是得了感冒。同理,可以计算这个病人患上过敏或脑震荡的概率。比较这几个概率,就可以知道他最可能得什么病。

    这就是贝叶斯分类器的基本方法:在统计资料的基础上,依据某些特征,计算各个类别的概率,从而实现分类。

    二、朴素贝叶斯分类器的公式

    假设某个体有n项特征(Feature),分别为F1、F2、…、Fn。现有m个类别(Category),分别为C1、C2、…、Cm。贝叶斯分类器就是计算出概率最大的那个分类,也就是求下面这个算式的最大值:

     P(C|F1F2...Fn)
      = P(F1F2...Fn|C)P(C) / P(F1F2...Fn)
    

    由于 P(F1F2…Fn) 对于所有的类别都是相同的,可以省略,问题就变成了求

     P(F1F2...Fn|C)P( C)
    

    的最大值。

    朴素贝叶斯分类器则是更进一步,假设所有特征都彼此独立,因此

     P(F1F2...Fn|C)P( C)
      = P(F1|C)P(F2|C) ... P(Fn|C)P( C)
    

    上式等号右边的每一项,都可以从统计资料中得到,由此就可以计算出每个类别对应的概率,从而找出最大概率的那个类。

    虽然"所有特征彼此独立"这个假设,在现实中不太可能成立,但是它可以大大简化计算,而且有研究表明对分类结果的准确性影响不大。

    展开全文
  • 主要介绍了Python实现的朴素贝叶斯分类器,结合具体实例形式分析了基于Python实现的朴素贝叶斯分类器相关定义与使用技巧,需要的朋友可以参考下
  • 朴素贝叶斯分类器原理与应用

    千次阅读 2018-12-22 22:38:54
    文章目录贝叶斯定理与概率论中相关概念属性条件独立性假设朴素贝叶斯分类器朴素贝叶斯分类器公式离散属性与连续属性值的分别处理朴素贝叶斯分类器实例拉普拉斯修正EM算法使用EM算法的现实意义EM 算法步骤EM算法实例 ...

    贝叶斯公式

    P(cx)=P(c)P(xc)P(x)=P(x,c)P(x) P(c | x)=\frac{P(c) P(x | c)}{P(x)}=\frac{P(x, c)}{P(x)}
    其中:

    • P(c|x)是后验概率,一般是我们求解的目标。表示当拥有x这个条件后c的概率;
    • P(x|c)是条件概率,注意它也是后验概率,但是在计算贝叶斯公式时是已知量。
    • P(c)是先验概率,它表示我们对一个随机变量概率最初的认识,一般都是人主观给出的。
    • P(x)其实也是先验概率,只是在贝叶斯公式中往往被认为是已知的,因此它一般被当做一个常量看待。
    • P(x,c)是联合概率,即x和c同时发生时的概率。

    在朴素贝叶斯分类器中,P(c|x)通常表示P(类别|特征)。
    其中特征x可以是一个向量,即有很多个特征:
    X=(x1,x2,x3,,xn) X=(x_{1}, x_{2}, x_{3}, \dots, x_{n})
    同理,c也可以是一个向量。

    属性条件独立性假设

    朴素贝叶斯分类器之所以称为为"朴素",是因为采用了属性条件独立性假设:即假设每个属性独立地对分类结果发生影响。
    如果假设X中各个属性是独立的,那么p(c|x)可写为:
    P(cx)=P(c)P(xc)P(x)=P(c)P(x)Πi=1dP(xic) P(c | x)=\frac{P(c) P(x | c)}{P(x)}=\frac{P(c)}{P(x)} \Pi_{i=1}^{d} P(x_{i} | c)
    其中
    p(x)=P(x1)P(x2)P(xn) p(x)=P(x_{1}) P(x_{2}) \ldots P(x_{n})
    也就是说,只要应用了属性条件独立性假设,那么条件概率p(特征集合|类别)就可以拆成在类别这个条件下每一个特征的条件概率的乘积。
    由于对于不同的p(c|x),分母p(x)是常量均相同,与类别c无关,故我们计算c的各种取值的可能性时并不会对各结果的相对大小产生影响,因此可以忽略。

    朴素贝叶斯分类器

    假设特征集合为x,类别集合为c。

    朴素贝叶斯分类器公式

    我们由训练集可以计算出所有p(c)类别概率和p(x|c)以类别为条件下特征的概率,由
    P(cx)=P(c)P(xc)P(x)=P(x,c)P(x) P(c | x)=\frac{P(c) P(x | c)}{P(x)}=\frac{P(x,c)}{P(x)}
    可以求出p(x,c)联合分布概率,这种模型称为生成模型。所以我们说贝叶斯分类器是生成模型。
    由于属性条件的独立性假设,各个特征的p(x)的值应当是一个常量(虽然我们不知道具体是多少),而且p(x)在训练集和测试集上应当一致,因此我们可以省略上式的分母。
    朴素贝叶斯分类器公式:
    hnb(x)=argmaxcYP(c)i=1dP(xic) h_{nb}(x)=\underset{c \in \mathcal{Y}}{\arg \max } P(c) \prod_{i=1}^{d} P(x_{i} | c)
    贝叶斯分类器即用p(c)和p(x|c)来计算p(c|x),计算时不除以分母,通过比较测试样本的每个类别的p(c|x)大小,确定测试样本最有可能属于哪个类别。
    注意我们的深度学习模型如lr最终所求的也是p(c|x),但是因为它们是直接求p(c|x),而不求p(x,c),所以被称为判别模型。

    离散属性与连续属性值的分别处理

    在估计条件概率时,若特征为离散值,那么我们只需计算每个特征取值的样本数量占每个类的训练样本数量的比值:
    P(xic)=Dc,xiDc P\left(x_{i} | c\right)=\frac{\left|D_{c, x_{i}}\right|}{\left|D_{c}\right|}
    Dc表示训练集D中第c类样本组成的集合,外加两条竖线表示的是集合的元素数量。Dc,xi表示在属于类别c的样本中,第i个特征值上取值为xi的样本组成的集合。

    若特征为连续值,我们就得用概率密度函数。

    这里以高斯分布为例,假设xi服从高斯分布,基于这个分布,我们就可以构造一个高斯朴素贝叶斯分类器。
    若有
    p(xic)N(μc,i,σc,i2) p\left(x_{i} | c\right) \sim \mathcal{N}\left(\mu_{c, i}, \sigma_{c, i}^{2}\right)

    P(xic) P\left(x_{i} | c\right)
    的概率密度函数为:
    p(xic)=12πσc,iexp((xiμc,i)22σc,i2) p\left(x_{i} | c\right)=\frac{1}{\sqrt{2 \pi} \sigma_{c, i}} \exp \left(-\frac{\left(x_{i}-\mu_{c, i}\right)^{2}}{2 \sigma_{c, i}^{2}}\right)
    这样根据测试样本的各个特征值的取值,我们计算出每个特征值的p(xi|c),就可以计算一个测试样本对每个类别ci的p(ci|x),即样本在各个特征值取值确定的条件下,属于某个类别ci的概率。仍然是下面这个公式:
    hnb(x)=argmaxcYP(c)i=1dP(xic) h_{nb}(x)=\underset{c \in \mathcal{Y}}{\arg \max } P(c) \prod_{i=1}^{d} P(x_{i} | c)
    计算出对每个类的h(x)值,最终取最大值对应的那个类作为这个测试样本的类预测结果。
    计算实例见西瓜书P151-P153页。

    拉普拉斯修正

    如果某个特征是离散值,且有一个特征值的取值在训练集中没有与某个类同时出现过,那么当我们使用对其进行估计时,P(xi|c)会等于0。这时如果再用朴素贝叶斯分类器公式
    hnb(x)=argmaxcYP(c)i=1dP(xic) h_{nb}(x)=\underset{c \in \mathcal{Y}}{\arg \max } P(c) \prod_{i=1}^{d} P(x_{i} | c)
    进行判别时,若某个测试样本在属性i上恰好取值为xi,但是它其它的属性非常符合这个类型c的特征,于是在用最后的连乘式计算该样本属于该类的概率时,不管其它的属性如何取值,就会因P(xi|c)=0这一个零值导致分类器认为该样本属于这个类型c的概率为0,这显然是不合理的。
    为了避免这个问题的出现,我们通常还是在估计概率值时,对其进行"平滑"(smoothing)操作,通常使用"拉普拉斯修正"(Laplacian correction)。
    具体做法:
    令N表示训练集D中可能的类别数,Ni表示第i个属性可能的取值数,那么我们估计类别概率值的P(c)和离散属性条件概率的p(xi|c)的两个公式分别被调整为:
    P^(c)=Dc+1D+N \hat{P}(c)=\frac{\left|D_{c}\right|+1}{|D|+N}
    P^(xic)=Dc,xi+1Dc+Ni \hat{P}\left(x_{i} | c\right)=\frac{\left|D_{c, x_{i}}\right|+1}{\left|D_{c}\right|+N_{i}}
    即我们在分母上都加上取值的可能性个数,分子上都加1,这就保证了即使是存在某个属性i的取值xi未曾与类别ci同时出现过,我们也不会把其概率P(xi|c)算成0。
    其余计算步骤与朴素贝叶斯分类器相同。
    拉普拉斯修正避免了因训练集样本不充分而导致概率估值为零的问题,并且在训练集变大时,修正过程所引入的先验(prior) 的影响也会逐渐变得可忽略,使得估值渐趋向于实际概率值。

    朴素贝叶斯分类器的应用:贝叶斯垃圾邮件过滤器

    论文:A plan for Spam
    论文地址:http://www.paulgraham.com/spam.html
    论文:Better Bayesian Filtering
    论文地址:http://www.paulgraham.com/better.html
    我们假定新邮件是垃圾邮件的概率为50%。(有研究表明,用户收到的电子邮件中,80%是垃圾邮件。但是,这里仍然假定垃圾邮件的”先验概率”为50%)
    用S表示垃圾邮件(spam),H表示正常邮件(healthy),于是有:
    P(S)=P(H)=50% P(S)=P(H)=50 \%
    现在我们对这封邮件进行解析,发现其中包含了sex这个词,请问这封邮件属于垃圾邮件的概率有多高?
    我们用W表示”sex”这个词,那么问题就变成了如何计算P(S|W)的值,即在某个词语特征(W)已经存在的条件下,该邮件属于垃圾邮件S的概率有多大。
    根据条件概率公式,可以写出:
    P(SW)=P(WS)P(S)P(WS)P(S)+P(WH)P(H) P(S | W)=\frac{P(W | S) P(S)}{P(W | S) P(S)+P(W | H) P(H)}
    P(W|S)和P(W|H)的含义是,这个词语在垃圾邮件和正常邮件中,分别出现的概率。这两个值可以从历史资料库中得到,对sex这个词来说,上文假定它们分别等于5%和0.05%。另外,P(S)和P(H)的值,前面说过都等于50%。
    我们可以计算出P(S|W)的值:
    P(SW)=5%×50%5%×50%+0.05%×50%=99.0% P(S | W)=\frac{5 \% \times 50 \%}{5 \% \times 50 \%+0.05 \% \times 50 \%}=99.0 \%
    因此,这封新邮件是垃圾邮件的概率等于99%。这说明,sex这个词的推断能力很强,将50%的”先验概率”一下子提高到了99%的”后验概率”。
    计算了上面对sex这个词的p(s|w)后,我们能否确定这封邮件就是垃圾邮件呢?

    当然不行,因为一封邮件包含很多词语,一些词语(比如sex)说这是垃圾邮件,另一些说这不是。你怎么知道以哪个词为准?
    在这里一个词就相当于一个特征,而一封邮件中包含很多词语,因此就相当于我们要计算这些词语(特征)的联合概率。
    Paul Graham的做法是,选出这封信中P(S|W)最高的15个词,计算它们的联合概率。(如果有的词是第一次出现,无法计算P(S|W),Paul Graham就假定这个值等于0.4。因为垃圾邮件用的往往都是某些固定的词语,所以如果你从来没见过某个词,它多半是一个正常的词)
    现在我们先来讨论只有两个词W1和W2的情况:

    在已知W1和W2的情况下,无非就是两种结果:垃圾邮件(事件E1)或正常邮件(事件E2)。
    如果假定所有事件都是独立事件(严格地说,这个假定不成立,但是这里可以忽略),那么就可以计算P(E1)和P(E2),即一封邮件在包含两个词W1和W2时,是垃圾邮件/正常邮件的概率:
    P(E1)=P(SW1)P(SW2)P(S) P\left(E_{1}\right)=P(S | W_{1}) P(S | W_{2}) P(S)
    P(E2)=(1P(SW1))(1P(SW2))(1P(S)) P\left(E_{2}\right)=(1-P(S | W_{1}))(1-P(S | W_{2}))(1-P(S))
    又由于在W1和W2已经发生的情况下,垃圾邮件的概率等于:
    P=P(E1)P(E1)+P(E2) P=\frac{P\left(E_{1}\right)}{P\left(E_{1}\right)+P\left(E_{2}\right)}
    故可得
    P=P(SW1)P(SW2)P(S)P(SW1)P(SW2)P(S)+(1P(SW1))(1P(SW2))(1P(S)) P=\frac{P(S | W_{1}) P(S | W_{2}) P(S)}{P(S | W_{1}) P(S | W_{2}) P(S)+(1-P(S | W_{1}))(1-P(S | W_{2}))(1-P(S))}
    将P(S)=0.5代入,可得
    P=P(SW1)P(SW2)P(SW1)P(SW2)+(1P(SW1))(1P(SW2)) P=\frac{P(S | W_{1}) P(S | W_{2})}{P(S | W_{1}) P(S | W_{2})+(1-P(S | W_{1}))(1-P(S | W_{2}))}
    将P(S|W1)记为P1,P(S|W2)记为P2,公式就变成 :
    P=P1P2P1P2+(1P1)(1P2) P=\frac{P_{1} P_{2}}{P_{1} P_{2}+\left(1-P_{1}\right)\left(1-P_{2}\right)}
    这就是对W1和W2的联合概率的最终计算公式,也是我们计算某个邮件是垃圾邮件的概率公式。
    将上面的公式扩展到15个词的情况,就得到了最终的概率计算公式:
    P=P1P2P15P1P2P15+(1P1)(1P2)(1P15) P=\frac{P_{1} P_{2} \cdots P_{15}}{P_{1} P_{2} \cdots P_{15}+\left(1-P_{1}\right)\left(1-P_{2}\right) \cdots\left(1-P_{15}\right)}
    一封邮件是不是垃圾邮件,就用这个式子进行计算。这时我们还需要一个用于比较的门槛值。
    Paul Graham的门槛值是0.9,概率大于0.9,表示15个词联合认定,这封邮件有90%以上的可能属于垃圾邮件;概率小于0.9,就表示是正常邮件。

    展开全文
  • 朴素贝叶斯分类器是一系列以假设特征之间强(朴素)独立下运用贝叶斯定理为基础的简单概率分类器。下面我们通过西瓜判定的实例,阐述利用贝叶斯算法进行简单模式识别分类的过程。 ...
  • 朴素贝叶斯分类器

    千次阅读 2017-05-06 10:51:29
    朴素贝叶斯分类的原理与流程朴素贝叶斯分类实例按照某人是否要打网球来划分天气 贝叶斯分类器--原理流程应用 0写在前面的话11摘要12分类问题综述13贝叶斯分类的基础贝叶斯定理14朴素贝叶斯分类 141朴素贝叶斯...
  • 实现朴素贝叶斯分类器算法基本功能,代码有注释,还包括一个垃圾邮件过滤的实例。另外我这次用的是python2.7版,如果用python3的可能需要根据提示修改几个语法(sorted函数的参数)。
  • 朴素贝叶斯分类器(Naive Bayesian Classifier)

    万次阅读 多人点赞 2017-12-07 11:20:21
    朴素贝叶斯分类器,顾名思义,是一种分类算法,且借助了贝叶斯定理。另外,它是一种生成模型(generative model),采用直接对联合概率P(x,c)建模,以获得目标概率值的方法。预备知识 先验概率与后验概率 贝叶斯定理...
  • 朴素贝叶斯分类器 MATLAB 源代码,里面含有使用实例,用的是 UCI 的 mushroom 数据集。 分类器详细介绍见: http://blog.csdn.net/yunduanmuxue/article/details/39693917
  • 一 高斯朴素贝叶斯分类器代码实现 网上搜索不调用sklearn实现的朴素贝叶斯分类器基本很少,即使有也是结合文本分类的多项式或伯努利类型,因此自己写了一遍能直接封装的高斯类型NB分类器,当然与真正的源码相比少了...
  • Java实现朴素贝叶斯分类器

    万次阅读 2016-11-22 21:09:19
    java语言实现朴素贝叶斯分类器。对数据样本进行分类。
  • 实例朴素贝叶斯过滤垃圾邮件 朴素贝叶斯理论概述 朴素贝叶斯(navie bayes)是贝叶斯决策理论的一部分,只考虑最简单的假设,用 Python 将文本切分为词向量,然后利用词向量对文档分类。 优点:在数据较少的情况下...
  • 贝叶斯公式/朴素贝叶斯分类器及python自实现

    万次阅读 多人点赞 2018-11-20 21:26:44
    通过两个实例理解贝叶斯的思想与流程,然后梳理了朴素贝叶斯分类器的算法流程,最后从零开始实现了朴素分类器的算法。 文章目录1.起源、提出与贝叶斯公式2.以实例感受贝叶斯决策:癌症病人计算 问题3.以实例感受...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 9,081
精华内容 3,632
关键字:

朴素贝叶斯分类器实例