2018-07-13 13:52:25 eaglesimu 阅读数 177
  • 系统集成项目管理工程师考试-项目管理部分大全

    该部分为考试重要的部分所在,上午选择题40分左右,下午案例分析甚至占到百分之90,需要花大的精力去掌握,去融会贯通,44个过程、129个工具、每个活动的内容必须掌握,当然我们在串讲的时候运用了多种个性化的方法,输入输出大家觉得很难,这部分选择性掌握。

    12018 人正在学习 去看看 赵冲

本篇博客搬运自个人简书链接戳我,欢迎大家关注。

李航的蓝皮书《统计学习方法》,可谓是机器学习的中文经典。其中所设计的一些算法,是机器学习的基础。这篇博文将要讲述蓝皮书中的第四章朴素贝叶斯法。

Part i 算法原理

朴素贝叶斯方法的整体思路是相对容易理解的:通过样本知识,可以求得先验概率,然后根据全概率公式,计算出所求事件的概率。朴素贝叶斯的算法框架如下:
=============================朴素贝叶斯=============================
输入:样本集X,标签y

输出:某个样本的分类

Step.1 计算先验概率和条件概率
图片来源于《统计学习方法》
Step.2 对于给定样本,计算该样本属于各类的概率
图片来源于《统计学习方法》
Step.3 确定样本属于哪一类

图片来源于《统计学习方法》

虽然整个算法非常简单,但是在实际操作中会存在一些细小的问题,如
1. 在计算某个条件概率时如果出现了0的情况,则很有可能会影响到厚颜概率的计算。
2. 对于离散变量可以很好的计算概率,可是对于连续变量就存在问题。
面对上述两个问题,问题一通常的解决方法是加入一个系数lambda,使概率不为0。故而对Step.1 中的公式进行如下的更改:

图片来源于《统计学习方法》

问题二的通常解决方法是假设其满足某个分布,通常为正太分布,则通过样本集来估计该分布的参数。在测试集中,根据实例的数值,来计算其在该分布下的概率。

Part ii Python 代码实现

定义一个NaiveBayes(object)类,初始化参数λ=1

def __init__(self,lamda=1):
        self.lamda = lamda

训练模型,训练模型的过程,其实就是计算各个概率的过程。对于离散变量直接其概率,对于连续变量,则计算他们的均值和方差。当然为了简化,额外设置了两个输入参数class_numind,其中class_num表示类别的数目,而ind表示离散变量的标号。
在这里以一个字典的形式记录下各个概率。

def fit(self,x,y,class_num,ind):
        total_num,Len = x.shape
        Feat_Len = np.max(x,axis=0)+1
        prob = dict()
        for i in range(class_num):
            y_category_num = np.sum(y==i)   
            prob.update( {str(i+1):(y_category_num+self.lamda)/(total_num+class_num*self.lamda) } )
            for j in range(Len):
                temp_x = x[y==i,j]
                if j in ind:
                    for k in range(Feat_Len[j]):                     
                        feat_category_num = np.sum(temp_x==k)
                        prob.update( {str(100*(i+1)+10*(j+1)+k+1): (feat_category_num + self.lamda) / (y_category_num + Feat_Len[j]*self.lamda)  }  )
                if j not in ind:
                    mu = np.mean( temp_x)
                    prob.update( {str(100*(i+1)+10*(j+1)+1):mu} )
                    sigma = np.std( temp_x,ddof=1)
                    prob.update( {str(100*(i+1)+10*(j+1)+2):sigma} )
        self.prob_matrix = prob
        self.class_num = class_num
        self.ind = ind

为了使模型能够预测,定义了一个predict(self,x)的函数,直接输出预测数据的种类

def predict(self,x):
        try:
            Num,Len = x.shape
        except:
            Len = len(x)  
            Num = 1
            x = x.reshape([1,-1])
        p_pred =  np.zeros([Num,self.class_num])
        prob_matrix = self.prob_matrix
        for n in range(Num):
            for i in range(self.class_num):
                pb = prob_matrix[str(i+1)]
                print( prob_matrix[str(i+1)] )
                for j in range(Len):
                    if j in self.ind:
                        pb *=  prob_matrix[ str(100*(i+1)+10*(j+1)+x[n,j]+1) ]
                        print( prob_matrix[ str(100*(i+1)+10*(j+1)+x[n,j]+1) ] )
                    if j not in self.ind:
                        pb *= stats.norm.pdf(x[n,j], prob_matrix[str(100*(i+1)+10*(j+1)+1)], prob_matrix[str(100*(i+1)+10*(j+1)+2)])
                        print(stats.norm.pdf(x[n,j], prob_matrix[str(100*(i+1)+10*(j+1)+1)], prob_matrix[str(100*(i+1)+10*(j+1)+2)]) )
                print('==================================')
                p_pred[n,i] = pb

        self.predict_prob_ = p_pred
        return np.argmax(p_pred,axis=1)

Part iii 实验结果:

为了验证代码的准确性,采用了两个例子,一个是蓝皮书上的数据,另一个此网址的数据
蓝皮书训练集.png
网络数据集
令蓝皮书中的S=0,M=1,L=2,令网络数据集中的有房=1,无房=0,单身=0,已婚=1,离婚=2,拖欠贷款=1,不拖欠贷款=0,则定义的两个数据集量化后如下表示:

def data_set(self,data):
        if data == 1:
            X = np.array([[1,1,1,1,1,2,2,2,2,2,3,3,3,3,3],[1,2,2,1,1,1,2,2,3,3,3,2,2,3,3]]).T -1
            y = np.array([-1,-1,1,1,-1,-1,-1,1,1,1,1,1,1,1,-1])  
            y[y==-1]=0  
            ind= [0,1]
            x_te = np.array([1,0])
        else:
            X = np.array([[1,0,0,1,0,0,1,0,0,0],[0,1,0,1,2,1,2,0,1,0],[125,100,70,120,95,60,220,85,75,90]]).T
            y = np.array( [0,0,0,0,1,0,0,1,0,1] )
            ind = [0,1]
            x_te = np.array([0,1,120])
        return X,y,ind,x_te

对这两组数据分别进行训练和预测:

print('蓝皮书数据集')
nb = NaiveBayes()
X,y,ind,x_te = nb.data_set(1)
nb.fit(X,y,2,ind)
x_te = np.array( [[1,0]] )
p1 = nb.predict(x_te)
print( '各类概率:',p1,'识别结果:', nb.predict_prob_)

print('网络数据集')
nb = NaiveBayes(lamda=0)
X,y,ind,x_te = nb.data_set(0)
nb.fit(X,y,2,ind)
p2 = nb.predict_prob(x_te)
print( '各类概率:',p2,'识别结果:',nb.predict_prob_)

最终的结果和书本保持一致。
程序运行结果

2019-04-04 09:48:18 baidu_40840693 阅读数 2901
  • 系统集成项目管理工程师考试-项目管理部分大全

    该部分为考试重要的部分所在,上午选择题40分左右,下午案例分析甚至占到百分之90,需要花大的精力去掌握,去融会贯通,44个过程、129个工具、每个活动的内容必须掌握,当然我们在串讲的时候运用了多种个性化的方法,输入输出大家觉得很难,这部分选择性掌握。

    12018 人正在学习 去看看 赵冲
2018-03-19 21:22:39 peinbill 阅读数 475
  • 系统集成项目管理工程师考试-项目管理部分大全

    该部分为考试重要的部分所在,上午选择题40分左右,下午案例分析甚至占到百分之90,需要花大的精力去掌握,去融会贯通,44个过程、129个工具、每个活动的内容必须掌握,当然我们在串讲的时候运用了多种个性化的方法,输入输出大家觉得很难,这部分选择性掌握。

    12018 人正在学习 去看看 赵冲

不知不觉就研一下啦,想了想,作为一个专硕狗也要开始考虑工作和实习了敲打,不过在这之前打算先花那么一两个月再刷刷书。看书必然要做笔记,但是做笔记最痛苦的经常是:嗯,笔记做了,短时间还记得,过了一段.......笔记不见了,东西也基本忘光了(经常发生)再见。想了想,就在博客稍微记一下吧。


因为本渣的专攻方向为机器学习和深度学习,西瓜书和Benjor那本蓝皮书算得上必备之本。就把两本书的大致笔记做一下吧。先刷西瓜书,再刷蓝皮书,此贴为证!

第一次写博客,思绪稍微有点乱,权当自己看看吧


总结:

第一章其实没什么难度,就是讲了一下术语相关的东西(完全只靠记),但是因为机器学习相关的术语还是很多都还没固定好,往往同一个东西有多个同义词和近义词,所以看论文的时候如果忘了或者区分不了真的会特别特别的痛苦(特别是区分同义词和近义词方面),所以认真刷一下还是很有必要的。


重要概念:

机器学习定义:假设用P来评估计算机程序在某项任务T上的性能,若一个程序通过利用经验E在T中任务上获得了性能的改善,则我们就说关于T和P,该程序对E进行了学习。(这个概念在西瓜书上作者也说了是引用Mitchell上,事实上Mitchell也写过一本机器学习的书(上学期的教材),但是严重不推荐初学者进行学习,在那本书上将很多概念讲得过于抽象,而且20多前的老书,很多概念都已经发生了变化,但是对机器学习的定义个人感觉到目前为止还是无法超越的)


假设:学的模型对应数据的某种潜在的规则。其实一般我们学到的表示是:y=f(x);在机器学习上我们则经常表示为y=h(x)。其实这里的h和f等价(历史遗留问题),简单理解为假设就是我们所学到的函数即可。


样例(example):拥有标记(label)信息的实例。标记对应的是标记空间(label space)/输出空间。与下文的样本空间对应。


机器学习的分类:大体上可以分类为有监督学习(根据标记可分为分类和回归),无监督学习(如聚类,此时的每个组称为一个簇)。但有的教材还有半监督学习,强化学习等等。


概念学习:要求从训练数据中学得概念。其实就是学习过程看做在所有假设组成的空间中进行搜索的过程(具体有很多种算法)。但是目前流行的基本都是各种黑箱模型,如深度学习(本渣主要研究方向)。


归纳偏好:算法在学习过程中对某种类型假设的偏好。特别特别的重要,特别是后面的决策树选择中,如奥卡姆剃刀原理。在没有偏好的过程中我们甚至无法对模型进行建模。


NFL(没有免费的午餐定理):无论算法A多聪明,算法B多笨拙,期望性能相同。因此如果抛开特定的问题是不存在绝对好和绝对差的算法,因此,也不用说学了深度学习,决策树就没有用啦之类的,事实上,现在树形结果的算法在一般在结构化数据方面往往胜过如今最流行的深度学习算法。


同义词(近义词):

模型/模式:模型代表学到的整体,模式则是指局部性结果(一条规则)


示例(instance)/样本(sample)/特征向量(feature vector):基本指的是同一个东西,一个XXX可以理解为一条数据即可


属性(attribute)/特征(feature):同一个东西,数据表中的一列,事实上在大多数论文中经常引入“特征”一词,刚开始的时候经常也搞混


属性空间(attribute space)/样本空间(sample space)/输入空间:其实输入空间这概念在我没刷西瓜书之前都不清楚,这里简单理解为每个属性的所有取值对应的空间即可。


此外本章还有一些历史故事之类的,感觉就当故事看看就行。

2019-01-18 20:22:26 weixin_33889245 阅读数 23
  • 系统集成项目管理工程师考试-项目管理部分大全

    该部分为考试重要的部分所在,上午选择题40分左右,下午案例分析甚至占到百分之90,需要花大的精力去掌握,去融会贯通,44个过程、129个工具、每个活动的内容必须掌握,当然我们在串讲的时候运用了多种个性化的方法,输入输出大家觉得很难,这部分选择性掌握。

    12018 人正在学习 去看看 赵冲
2019“宁夏蓝皮书系列丛书”《西北蓝皮书》正式发布

2019年“宁夏蓝皮书系列丛书”内容更为丰富,观点更加鲜明,对策建议更具针对性和操作性。 胡耀荣 摄

中新网银川1月18日电 (于翔 胡耀荣)1月18日上午,由宁夏社会科学院举办的2018年科研成果暨“宁夏蓝皮书系列丛书”《西北蓝皮书》新闻发布会在银川举行。此次发布2019年度宁夏系列蓝皮书共5册,分别为《宁夏社会发展报告》《宁夏经济发展报告》《宁夏文化发展报告》《宁夏生态文明建设报告》和《宁夏法治发展报告》,发布会同时发布《西北蓝皮书》。

宁夏蓝皮书以宁夏年度发展的重点、热点和亮点为切入点,坚持决策咨询立场和专家学术视角,分析发展现状,预测发展趋势,研究发展特点及规律,同时也对发展中的经验和存在的问题进行了科学总结和理性研判。

《2019宁夏经济发展报告》指出,2018年,全区经济保持平稳增长,一二三次产业协调发展,农业生产平稳增长,工业生产稳中向好,市场消费稳中趋缓,新兴动能加快成长,创新投入不断增加。

虽然宁夏经济呈现运行平稳、动能转换提升的态势,但也存在投资回升动力不足,结构调整困难大进展慢,工业生产下行压力大,市场销售回升难度大,全区经济持续健康发展的基础仍不够坚实,仍处于转型发展、结构升级、动力转换的关键时期。

2019“宁夏蓝皮书系列丛书”《西北蓝皮书》正式发布

2019年宁夏系列蓝皮书包括经济、社会、文化、生态文明建设、法治5册,同时发布《西北蓝皮书》。 胡耀荣 摄

《2019宁夏生态文明建设报告》认为,2018年,宁夏大力实施生态立区战略,生态文明建设不断加强,整治环境突出问题,实施重点生态工程,生态环境不断改善。在开展贺兰山生态环境综合整治行动中,共排查自然保护区人类活动点位2616处,保留和完成整治2556处,正在整治60处。白芨滩国家级自然保护区的42家企业全部拆除退出,共退出土地面积2174亩,开展生态恢复面积2045亩,完成造林任务145万亩。生态面貌不断改善,湿地保护工作成明显。

据了解,宁夏社科院从2001年开始编撰宁夏蓝皮书,已走过了十八年历程,从最初只有一本“经济社会蓝皮书”发展到目前包括宁夏经济、社会、法治、生态文明、文化等丛书,不仅从理论研究的角度深入剖析宁夏发展中的热点问题并对战略性问题进行探讨,同时还对未来的发展趋势进行预测和分析。与往年蓝皮书相比,2019年“宁夏蓝皮书系列丛书”内容更为丰富,观点更加鲜明,对策建议更具针对性和操作性。(完)

2018-11-12 11:01:12 qq_40558336 阅读数 195
  • 系统集成项目管理工程师考试-项目管理部分大全

    该部分为考试重要的部分所在,上午选择题40分左右,下午案例分析甚至占到百分之90,需要花大的精力去掌握,去融会贯通,44个过程、129个工具、每个活动的内容必须掌握,当然我们在串讲的时候运用了多种个性化的方法,输入输出大家觉得很难,这部分选择性掌握。

    12018 人正在学习 去看看 赵冲

举办的 2018 世界人工智能大会上,由 Gartner(高德纳咨询公司)和信通院联合编制的 2018 世界人工智能产业发展蓝皮书在上海发布。(想获取本书电子版可以关注公众号【飞马会】在单栏回复数字"40",按照规则就可以获取2018世界人工智能产业发展蓝皮书~

 

 

2018 年新的人工智能技术成熟度曲线将由 Gartner 公司 67 位国际分析师参与定制编写,相较于 2017 年,2018 年新版本曲线将对更多技术的成熟度及预测做出更新,深度学习、自然语言处理等 30 个技术点进行了移动和调整。

 

全球 AI 产业地图由信通院负责制作,对全球人工智能产业进行系统分析,关注人工智能领域的研究成果和实践经验,特别是聚焦全球各主要人工智能强国产业发展及技术路线现状与趋势,从产业链地图、产业发布地图、产业研究机构与配套政策等多角度进行绘制,为推动我国人工智能产业发展提供重要决策参考。

 

2018 世界人工智能产业发展蓝皮书指出,人工智能仍处于早期采用阶段,许多企业也还处在正在考虑采用 AI 和规划 AI 的阶段,但仅有 4% 的被调研企业已经投资并部署了 AI 技术。在 Gartner 的 AI 技术成熟度曲线中,仍旧有许多技术拥堵在期望膨胀期,但若要过渡到生产实施阶段,仍旧非常困难。企业可以蓝皮书中勾勒的四种风格的的“卓越中心”为框架,推动 AI 的采用,而且其中的关键在于要选择适于业务风格和应用需求的方法。

 

本蓝皮书作为大会的重要报告成果,打开中国人工智能领域与世界对话的窗口,对全球人工智能的产业发展情况及技术路线趋势进行全面深度分析。希望本书对人工智能领域的从业者、研究者,以及感兴趣的读者们,带来有益的思考与借鉴,发挥必要的启示作用。

报告概述

本蓝皮书将分享人工智能领域的研究成果和实践经验,对全球各主要人工智能强国产业发展及技术路线现状与趋势进行全面掌握,详细阐述人工智能领域的技术研究、产业投入、服务应用,从而为促进人工智能技术和产业发展提供一定的基础资料与指导。本蓝皮书的编制,是在对世界人工智能产业发展的深入、广泛调研基础上,结合调研数据和权威部门相关资料,通过梳理人工智能技术、产业和应用发展情况,分析人工智能的技术热点、企业情况、产业应用和未来趋势,由编制团队共同完成。

本报告以全球人工智能产业地图为中心展开论述,该地图由中国信息通信研究院信息化与工业化融合研究所和数据研究中心联合绘制。地图通过对全球人工智能产业从底层技术到垂直应用,从产业结构到产业分布,从研究机构到政府政策等多角度进行了系统分析与绘制,盘点了人工智能的发展态势,为推动人工智能产业发展提供重要决策参考。

同时,中国信息通信研究院华东分院针对产业地图的内容进行了充分的阐述和延伸,设计了本报告的总体框架结构,详细阐述了产业发展环境、技术环境、全球人工智能企业发展情况以及人工智能产业化应用领域情况等,更加清晰的反应人工智能产业发展现状。

全球人工智能产业地图主要包括以下几个部分:(1) 产业链地图 (2) 产业分布地图 (3) 产业研究机构与配套政策。

1) 产业链地图版块

本版块人工智能产业链结构划分为基础支撑层、软件算法层与行业应用层。基础层产业地图主要从 计算硬件(云端训练、云端推算、设备端推理、智能芯片、智能传感器)、计算系统技术(云计算、大数据、5G通信与物联网)和数据(数据采集、标注和分析)三个维度对全球主要从事基础层产业的典型企业进行绘制。

软件算法层产业地图主要从算法理论(机器学习算法、类脑算法、知识图谱)、开发平台(基础开源框架、技术开放平台)和应用技术(计算机视觉、自然语言处理和人机交互)三个维度对全球主要从事软件算法层产业的典型企业进行绘制。

应用层面产业地图主要从行业解决方案(“AI+”行业垂直应用)和典型产品(视觉产品、语音终端、机器人、智能汽车、无人机)两个维度对全球主要从事应用层产业的典型企业进行绘制。

2) 产业分布地图版块

本版块主要盘点与绘制了中国各省市以及国际上人工智能产业领先的国家典型 AI 企业分布、规模及企业名目。

3) 产业研究机构与政策版块

本版块主要盘点与绘制了中国与国际上的人工智能主流行业研究机构、联盟与产业政策文件。

本报告的结构分为五部分:1) 产业发展环境 2) 技术环境 3) 全球人工智能企业的情况4) 全球投融资的情况 5) 产业发展情况

1) 产业发展环境

本部分从人工智能发展进程、全球各国人工智能相关政策以及人工智能发展条件进行阐述,全面论述了人工智能产业发展的基础与环境。

2) 技术环境

此部分从全球专利、论文、科研环境和技术竞赛方面总结出人工智能领域的当前技术环境。

3) 全球 AI 企业的情况

此部分从结构、规模和区域分布方面论述了全球人工智能企业的情况。

4) 全球投融资的情况

此部分阐述了人工智能领域全球投融资的分布、规模和轮次,从投融资和产业规模方面分析了人工智能产业的发展。

5) 产业发展情况

本部分阐述了全球人工智能产业技术与应用的发展现状,发展趋势情况,以及一些典型人工智能企业应用例举。

 

 

《2018世界人工智能产业发展蓝皮书》

如需下载完整版   请关注公众号

 

资料领取方式

关注公众账号【飞马会

导航回复数字【40

 

即可查看下载方式

 

 

 

往期福利

关注飞马会公众号,回复对应关键词打包下载学习资料;回复“入群”,加入飞马网AI、大数据、项目经理学习群,和优秀的人一起成长!

回复 数字“1”下载从入门到研究,人工智能领域最值得一读的10本资料(附下载)

回复 数字“2”机器学习 & 数据科学必读的经典书籍,内附资料包!

没有更多推荐了,返回首页