精华内容
下载资源
问答
  • 数据派作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。在过去的一年,志...

    数据派作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。

    在过去的一年,志愿者大家庭成员使数据派THU取得了辉煌的战绩。因此我们遴选出了9位来自各行各业的优秀志愿者们,一起来认识一下他们吧!

    翻译组

    陈之炎,北京交通大学通信与控制工程专业毕业,获得工学硕士学位,历任长城计算机软件与系统公司工程师,大唐微电子公司工程师,现任北京普利永华科技发展有限公司任可靠性工程师。

    目前在人工智能深度学习和自然语言处理(NLP)方面积累有一定的经验。业余时间喜爱翻译创作,翻译作品主要有:IEC-ISO 7816、伊拉克石油工程项目、新财税主义宣言等等,其中中译英作品“新财税主义宣言”在GLOBAL TIMES正式发表。能够利用业余时间加入到THU 数据派平台的翻译志愿者小组,希望能和大家一起交流分享,共同进步。

    2018 年初有幸成为数据派翻译小组志愿者的一员,在两年多的时间里,先后翻译文稿30多篇,近10万字,在工作过程中认识了许多乐于奉献的志愿者朋友,参加了数据派组织或推荐组织的多项活动。通过这些活动,提高了自身的专业素养,锻炼了翻译实战能力,收获满满的。

    李海明,中国科学院大学工程管理硕士。热爱生活,喜欢做饭、运动、听音乐和看电影;关注科研,酷爱数据科学领域相关知识(统计学习向)。希望同众豪杰一路,在人生路上体味冷暖,历经惑悟。

    期间参与数据派微信公众号的翻译和校对工作;2019年参与数据派发起的人民邮电出版社科技出版物《企业非结构数据分析从入门到精通》翻译项目。

    李洁,喜欢阅读、手工和旅行。希望能兼顾科研和生活,保持好奇心和平常心,每天都有所成长。

    翻译和校对了一些数据科学领域相关文章,对我自身的英语和专业知识有一定的帮助和提升;翻译和校对了一些技术文章,扩展了我的技术视野,使我了解到不同的技术和前沿领域,为我自身的研究方向选择有所参考;得到过两次翻译组的贡献奖。

    美编组

    文婧,新闻与传播专业硕士,目前从业大数据舆情分析。在数据派的时光非常快乐,不仅学习到非常多的知识,还认识了很多nice的志愿者们,希望今后的日子里继续与大家共同进步~

    目前已在美编组工作3年有余,数据派对我而言不仅是一个公众号,更是一种情怀。在美编组工作的3年期间,我见证了公众号粉丝数量由百至万的变更;而在这3年,我也与数据派共同成长,从一个普通的编辑已经成为美编组的组长。除了工作技能,这段工作经历也教会了我很多道理,积土可成山,积水可成渊,点点滴滴的努力终会取得一番成绩。相信数据派会越来越好,今后的我会继续努力,为数据派今后的发展贡献出自己的力量。

    黄继彦,医疗器械行业从业者。非常幸运能够在大学时结识到数据派这样的优质平台。从学生到社会人,我从数据小白到能够上手数据分析。感谢数据派,有幸能受到数据思维熏陶并跟随一起成长。今年也要一起保持学习呀~

    主要负责公众号近三年来的图文编辑排版,积累了公众号的运营经验,同时在编辑工作中接触到了大数据相关知识,对于以前在校期间做毕业设计,或者是现在工作对于运营数据的分析,都十分有帮助。

    运营组

    石梦舒,华北电力大学在读博士,研究方向为综合能源系统。喜欢探索一切新鲜事物,热衷新媒体运营,爱好推理、打球和学习新算法。希望和志同道合的小伙伴一起学习大人物的本领,保持小朋友的心情。

    每天运营数据派THU微博官方账号;粉丝数量从接手时的1600+到如今的10000+。在运营微博的过程中,我自己也学了很多大数据相关知识,并与自己所学专业结合。

    冉杰,现在BOE做生产运营工作,工作方向是推进工厂智能制造进程,参与精益化管理。很荣幸能够作为运营志愿者加入"数据派THU"这个大家庭,结实了很多优秀的小伙伴,了解到人工智能、大数据等领域的知识。开拓思维,学习创新,永不止步。

    就自己来说,这是一件除了自己的生活需要以外,几乎一天不断的并且能坚持近两年的一件事。说实话,我也不知道自己为啥要做下去,并且一直做下去。现在看来,好像成为了一种习惯。而且,我每天都能通过这个平台了解大数据、人工智能相关领域技术知识或者科技资讯,虽然我所学专业并非相关领域,但是我可能时刻有一种求知,了解时代技术发展前沿或概况的渴望,所以这项工作对我并不枯燥乏味,很有动力或获益匪浅。

    选文组

    黄丹,韩国釜山大学统计专业博士在读,研究方向生物统计,机器学习。曾就职于中国信息通信研究院任数据分析师。目前对于统计机器学习算法对于表观遗传学高维基因方面进行研究与探索。日常时间喜欢阅读与健身,希望成为一位在科研道路上身材好的博士生。

    一个偶然机会加入了数据派的选文组,成为数据派的一名志愿者,我会选取优秀的文章提供给数据派,当所选取的文章经常获得高阅读量时,成就感油然而生。在阅读量增加的同时知识面越来越广。很荣幸能够为数据派的读者提供丰富的阅读内容,希望今后能为数据派以及读者提供更优质的选文内容。

    干货组

    陈龙,北方工业大学计算机科学与技术专业,现任博雅信安科技(北京)有限公司安全攻防工程师,日常工作围绕漏洞研究。

    大学期间有幸加入THU数据派大家庭,在干货组期间,获得了精读前沿文章、与众多学校老师和行业专家面对面交流的机会,大大提升对文档编辑能力、拓宽前沿技术和不同行业视野,不断提高我对数据科学、AI等前沿领域认知,从学习到工作,对工作和专业素养提升都有显著的帮助。

    如果你想了解我们更多,欢迎点击下方“阅读原文”加入我们的志愿者大家庭!

    点击“阅读原文”拥抱组织

    展开全文
  • 来源:机器学习算法与Python实战 本文约10000字,建议阅读15分钟本文为你列举了统计学派中18种经典的数据分析法。 Part1 描述统计描述统计是通过图表或数学方法,对数据资料进...

    来源:机器学习算法与Python实战
    本文约10000字,建议阅读15分钟 本文为你列举了统计学派中18种经典的数据分析法。
    

    Part1 描述统计

    描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。

    集中趋势分析:集中趋势分析主要靠平均数、中数、众数等统计指标来表示数据的集中趋势。例如被试的平均成绩多少?是正偏分布还是负偏分布?

    离中趋势分析:离中趋势分析主要靠全距、四分差、平均差、方差(协方差:用来度量两个随机变量关系的统计量)、标准差等统计指标来研究数据的离中趋势。例如,我们想知道两个教学班的语文成绩中,哪个班级内的成绩分布更分散,就可以用两个班级的四分差或百分点来比较。

    相关分析:相关分析探讨数据之间是否具有统计学上的关联性。这种关系既包括两个数据之间的单一相关关系——如年龄与个人领域空间之间的关系,也包括多个数据之间的多重相关关系——如年龄、抑郁症发生率、个人领域空间之间的关系;既包括A大B就大(小),A小B就小(大)的直线相关关系,也可以是复杂相关关系(A=Y-B*X);既可以是A、B变量同时增大这种正相关关系,也可以是A变量增大时B变量减小这种负相关,还包括两变量共同变化的紧密程度——即相关系数。实际上,相关关系唯一不研究的数据关系,就是数据协同变化的内在根据——即因果关系。获得相关系数有什么用呢?简而言之,有了相关系数,就可以根据回归方程,进行A变量到B变量的估算,这就是所谓的回归分析,因此,相关分析是一种完整的统计研究方法,它贯穿于提出假设,数据研究,数据分析,数据研究的始终。

    例如,我们想知道对监狱情景进行什么改造,可以降低囚徒的暴力倾向。我们就需要将不同的囚舍颜色基调、囚舍绿化程度、囚室人口密度、放风时间、探视时间进行排列组合,然后让每个囚室一种实验处理,然后用因素分析法找出与囚徒暴力倾向的相关系数最高的因素。假定这一因素为囚室人口密度,我们又要将被试随机分入不同人口密度的十几个囚室中生活,继而得到人口密度和暴力倾向两组变量(即我们讨论过的A、B两列变量)。然后,我们将人口密度排入X轴,将暴力倾向分排入Y轴,获得了一个很有价值的图表,当某典狱长想知道,某囚舍扩建到N人/间囚室,暴力倾向能降低多少。我们可以当前人口密度和改建后人口密度带入相应的回归方程,算出扩建前的预期暴力倾向和扩建后的预期暴力倾向,两数据之差即典狱长想知道的结果。

    Part2 推论统计

    推论统计是统计学乃至于心理统计学中较为年轻的一部分内容。它以统计结果为依据,来证明或推翻某个命题。具体来说,就是通过分析样本与样本分布的差异,来估算样本与总体、同一样本的前后测成绩差异,样本与样本的成绩差距、总体与总体的成绩差距是否具有显著性差异。例如,我们想研究教育背景是否会影响人的智力测验成绩。可以找100名24岁大学毕业生和100名24岁初中毕业生。采集他们的一些智力测验成绩。用推论统计方法进行数据处理,最后会得出类似这样儿的结论:“研究发现,大学毕业生组的成绩显著高于初中毕业生组的成绩,二者在0.01水平上具有显著性差异,说明大学毕业生的一些智力测验成绩优于中学毕业生组。”

    其中,如果用EXCEL 来求描述统计。其方法是:工具-加载宏-勾选"分析工具库",然后关闭Excel然后重新打开,工具菜单就会出现"数据分析"。描述统计是“数据分析”内一个子菜单,在做的时候,记得要把方格输入正确。最好直接点选。

    Part3 正态性检验

    很多统计方法都要求数值服从或近似服从正态分布,所以之前需要进行正态性检验。常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。

    Part4 假设检验

    参数检验

    参数检验是在已知总体分布的条件下(一股要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验。

    1. U检验 :使用条件:当样本含量n较大时,样本值符合正态分布

    2. T检验:使用条件:当样本含量n较小时,样本值符合正态分布

      • 单样本t检验:推断该样本来自的总体均数μ与已知的某一总体均数μ0 (常为理论值或标准值)有无差别;

      • 配对样本t检验:当总体均数未知时,且两个样本可以配对,同对中的两者在可能会影响处理效果的各种条件方面扱为相似;

      • 两独立样本t检验:无法找到在各方面极为相似的两样本作配对比较时使用。


    非参数检验

    非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一股性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。

    适用情况:顺序类型的数据资料,这类数据的分布形态一般是未知的。

    • 虽然是连续数据,但总体分布形态未知或者非正态;

    • 体分布虽然正态,数据也是连续类型,但样本容量极小,如10以下;

    主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。


    Part5 信度分析

    信度(Reliability)即可靠性,它是指采用同样的方法对同一对象重复测量时所得结果的一致性程度。信度指标多以相关系数表示,大致可分为三类:稳定系数(跨时间的一致性),等值系数(跨形式的一致性)和内在一致性系数(跨项目的一致性)。信度分析的方法主要有以下四种:重测信度法、复本信度法、折半信度法、α信度系数法。

    方法

    1. 重测信度法:这一方法是用同样的问卷对同一组被调查者间隔一定时间重复施测,计算两次施测结果的相关系数。显然,重测信度属于稳定系数。重测信度法特别适用于事实式问卷,如性别、出生年月等在两次施测中不应有任何差异,大多数被调查者的兴趣、爱好、习惯等在短时间内也不会有十分明显的变化。如果没有突发事件导致被调查者的态度、意见突变,这种方法也适用于态度、意见式问卷。由于重测信度法需要对同一样本试测两次,被调查者容易受到各种事件、活动和他人的影响,而且间隔时间长短也有一定限制,因此在实施中有一定困难。

    2. 复本信度法:让同一组被调查者一次填答两份问卷复本,计算两个复本的相关系数。复本信度属于等值系数。复本信度法要求两个复本除表述方式不同外,在内容、格式、难度和对应题项的提问方向等方面要完全一致,而在实际调查中,很难使调查问卷达到这种要求,因此采用这种方法者较少。

    3. 折半信度法:折半信度法是将调查项目分为两半,计算两半得分的相关系数,进而估计整个量表的信度。折半信度属于内在一致性系数,测量的是两半题项得分间的一致性。这种方法一般不适用于事实式问卷(如年龄与性别无法相比),常用于态度、意见式问卷的信度分析。在问卷调查中,态度测量最常见的形式是5级李克特(Likert)量表(李克特量表(Likert scale)是属评分加总式量表最常用的一种,属同一构念的这些项目是用加总方式来计分,单独或个别项目是无意义的。它是由美国社会心理学家李克特于1932年在原有的总加量表基础上改进而成的。该量表由一组陈述组成,每一陈述有"非常同意"、"同意"、"不一定"、"不同意"、"非常不同意"五种回答,分别记为5、4、3、2、1,每个被调查者的态度总分就是他对各道题的回答所得分数的加总,这一总分可说明他的态度强弱或他在这一量表上的不同状态。)。进行折半信度分析时,如果量表中含有反意题项,应先将反意题项的得分作逆向处理,以保证各题项得分方向的一致性,然后将全部题项按奇偶或前后分为尽可能相等的两半,计算二者的相关系数(rhh,即半个量表的信度系数),最后用斯皮尔曼-布朗(Spearman-Brown)公式:求出整个量表的信度系数(ru)。

    4. α信度系数法:Cronbach

      α信度系数是目前最常用的信度系数,其公式为:

      α=(k/(k-1))*(1-(∑Si^2)/ST^2)

      其中,K为量表中题项的总数, Si^2为第i题得分的题内方差, ST^2为全部题项总得分的方差。从公式中可以看出,α系数评价的是量表中各题项得分间的一致性,属于内在一致性系数。这种方法适用于态度、意见式问卷(量表)的信度分析。

      总量表的信度系数最好在0.8以上,0.7-0.8之间可以接受;分量表的信度系数最好在0.7以上,0.6-0.7还可以接受。Cronbach 's alpha系数如果在0.6以下就要考虑重新编问卷。

      检査测量的可信度,例如调查问卷的真实性。


    分类

    1. 外在信度:不同时间测量时量表的一致性程度,常用方法重测信度。

    2. 内在信度;每个量表是否测量到单一的概念,同时组成两表的内在体项一致性如何,常用方法分半信度。


    Part6 列联表分析

    列联表是观测数据按两个或更多属性(定性变量)分类时所列出的频数表。

    简介

    一般,若总体中的个体可按两个属性A、B分类,A有r个等级A1,A2,…,Ar,B有c个等级B1,B2,…,Bc,从总体中抽取大小为n的样本,设其中有nij个个体的属性属于等级Ai和Bj,nij称为频数,将r×c个nij排列为一个r行c列的二维列联表,简称r×c表。若所考虑的属性多于两个,也可按类似的方式作出列联表,称为多维列联表。

    列联表又称交互分类表,所谓交互分类,是指同时依据两个变量的值,将所研究的个案分类。交互分类的目的是将两变量分组,然后比较各组的分布状况,以寻找变量间的关系。

    用于分析离散变量或定型变量之间是否存在相关。

    列联表分析的基本问题是,判明所考察的各属性之间有无关联,即是否独立。如在前例中,问题是:一个人是否色盲与其性别是否有关?在r×с表中,若以pi、pj和pij分别表示总体中的个体属于等级Ai,属于等级Bj和同时属于Ai、Bj的概率(pi,pj称边缘概率,pij称格概率),“A、B两属性无关联”的假设可以表述为H0:pij=pi·pj,(i=1,2,…,r;j=1,2,…,с),未知参数pij、pi、pj的最大似然估计(见点估计)分别为行和及列和(统称边缘和)。

    n为样本大小。根据K.皮尔森(1904)的拟合优度检验或似然比检验(见假设检验),当h0成立,且一切pi>0和pj>0时,统计量的渐近分布是自由度为(r-1)(с-1) 的Ⅹ分布,式中Eij=(ni·nj)/n称为期望频数。当n足够大,且表中各格的Eij都不太小时,可以据此对h0作检验:若Ⅹ值足够大,就拒绝假设h0,即认为A与B有关联。在前面的色觉问题中,曾按此检验,判定出性别与色觉之间存在某种关联。


    需要注意

    若样本大小n不是很大,则上述基于渐近分布的方法就不适用。对此,在四格表情形,R.A.费希尔(1935)提出了一种适用于所有n的精确检验法。其思想是在固定各边缘和的条件下,根据超几何分布(见概率分布),可以计算观测频数出现任意一种特定排列的条件概率。把实际出现的观测频数排列,以及比它呈现更多关联迹象的所有可能排列的条件概率都算出来并相加,若所得结果小于给定的显著性水平,则判定所考虑的两个属性存在关联,从而拒绝h0。

    对于二维表,可进行卡方检验,对于三维表,可作Mentel-Hanszel分层分析。

    列联表分析还包括配对计数资料的卡方检验、行列均为顺序变量的相关检验。

    Part7 相关分析

    研究现象之间是否存在某种依存关系,对具体有依存关系的现象探讨相关方向及相关程度。

    1. 单相关:两个因素之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因变量;

    2. 复相关:三个或三个以上因素的相关关系叫复相关,即研究时涉及两个或两个以上的自变量和因变量相关;

    3. 偏相关:在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个变量之间的相关关系称为偏相关。

    Part8 方差分析

    使用条件:各样本须是相互独立的随机样本;各样本来自正态分布总体;各总体方差相等。

    分类

    1. 单因素方差分析:一项试验只有一个影响因素,或者存在多个影响因素时,只分析一个因素与响应变量的关系

    2. 多因素有交互方差分析:一顼实验有多个影响因素,分析多个影响因素与响应变量的关系,同时考虑多个影响因素之间的关系

    3. 多因素无交互方差分析:分析多个影响因素与响应变量的关系,但是影响因素之间没有影响关系或忽略影响关系

    4. 协方差分祈:传统的方差分析存在明显的弊端,无法控制分析中存在的某些随机因素,使之影响了分祈结果的准确度。协方差分析主要是在排除了协变量的影响后再对修正后的主效应进行方差分析,是将线性回归与方差分析结合起来的一种分析方法。

    Part9 回归分析

    分类

    1. 一元线性回归分析:只有一个自变量X与因变量Y有关,X与Y都必须是连续型变量,因变量y或其残差必须服从正态分布。

    2. 多元线性回归分析

      使用条件:分析多个自变量与因变量Y的关系,X与Y都必须是连续型变量,因变量y或其残差必须服从正态分布 。

      • 残差检验:观测值与估计值的差值要艰从正态分布

      • 强影响点判断:寻找方式一般分为标准误差法、Mahalanobis距离法

      • 共线性诊断

      • 诊断方式:容忍度、方差扩大因子法(又称膨胀系数VIF)、特征根判定法、条件指针CI、方差比例

      • 处理方法:增加样本容量或选取另外的回归如主成分回归、岭回归等

      • 变呈筛选方式:选择最优回归方程的变里筛选法包括全横型法(CP法)、逐步回归法,向前引入法和向后剔除法

      • 横型诊断方法

    3. Logistic回归分析

      线性回归模型要求因变量是连续的正态分布变里,且自变量和因变量呈线性关系,而Logistic回归模型对因变量的分布没有要求,一般用于因变量是离散时的情况

      分类:Logistic回归模型有条件与非条件之分,条件Logistic回归模型和非条件Logistic回归模型的区别在于参数的估计是否用到了条件概率。

    4. 其他回归方法

      非线性回归、有序回归、Probit回归、加权回归等

    Part10 聚类分析

    聚类与分类的不同在于,聚类所要求划分的类是未知的。

    聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。

    从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。

    从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。

    聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。

    从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。


    定义

    依据研究对象(样品或指标)的特征,对其进行分类的方法,减少研究对象的数目。

    各类事物缺乏可靠的历史资料,无法确定共有多少类别,目的是将性质相近事物归入一类。

    各指标之间具有一定的相关关系。

    聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析区别于分类分析(classification analysis) ,后者是有监督的学习。

    变量类型:定类变量、定量(离散和连续)变量

    样本个体或指标变量按其具有的特性进行分类,寻找合理的度量事物相似性的统计量。

    1. 性质分类

      Q型聚类分析:对样本进行分类处理,又称样本聚类分祈使用距离系数作为统计量衡量相似度,如欧式距离、极端距离、绝对距离等

      R型聚类分析:对指标进行分类处理,又称指标聚类分析使用相似系数作为统计量衡量相似度,相关系数、列联系数等

    2. 方法分类

      • 系统聚类法:适用于小样本的样本聚类或指标聚类,一般用系统聚类法来聚类指标,又称分层聚类

      • 逐步聚类法:适用于大样本的样本聚类

      • 其他聚类法:两步聚类、K均值聚类等

    Part11 判别分析

    判别分析:根据已掌握的一批分类明确的样品建立判别函数,使产生错判的事例最少,进而对给定的一个新样品,判断它来自哪个总体。

    与聚类分析区别

    1. 聚类分析可以对样本逬行分类,也可以对指标进行分类;而判别分析只能对样本

    2. 聚类分析事先不知道事物的类别,也不知道分几类;而判别分析必须事先知道事物的类别,也知道分几类

    3. 聚类分析不需要分类的历史资料,而直接对样本进行分类;而判别分析需要分类历史资料去建立判别函数,然后才能对样本进行分类

    分类

    1. Fisher判别分析法

      以距离为判别准则来分类,即样本与哪个类的距离最短就分到哪一类,适用于两类判别;

      以概率为判别准则来分类,即样本属于哪一类的概率最大就分到哪一类,适用于多类判别。

    2. BAYES判别分析法

      BAYES判别分析法比FISHER判别分析法更加完善和先进,它不仅能解决多类判别分析,而且分析时考虑了数据的分布状态,所以一般较多使用;

    Part12 主成分分析

    主成分分析(Principal Component Analysis,PCA), 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。

    在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。

    主成分分析首先是由K.皮尔森(Karl Pearson)对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。

    将彼此梠关的一组指标变适转化为彼此独立的一组新的指标变量,并用其中较少的几个新指标变量就能综合反应原多个指标变量中所包含的主要信息。

    原理

    在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。

    设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上用来降维的一种方法。

    缺点

    1. 在主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平(即变量降维后的信息量须保持在一个较高水平上),其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释(否则主成分将空有信息量而无实际含义)。

    2. 主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。因此,提取的主成分个数m通常应明显小于原始变量个数p(除非p本身较小),否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。


    Part13 因子分析

    一种旨在寻找隐藏在多变量数据中、无法直接观察到却影响或支配可测变量的潜在因子、并估计潜在因子对可测变量的影响程度以及潜在因子之间的相关性的一种多元统计分析方法。

    与主成分分析比较

    • 相同:都能够起到治理多个原始变量内在结构关系的作用

    • 不同:主成分分析重在综合原始变适的信息.而因子分析重在解释原始变量间的关系,是比主成分分析更深入的一种多元统计方法

    用途

    • 减少分析变量个数

    • 通过对变量间相关关系探测,将原始变量进行分类

    Part14 时间序列分析

    动态数据处理的统计方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题;时间序列通常由4种要素组成:趋势、季节变动、循环波动和不规则波动。

    主要方法

    移动平均滤波与指数平滑法、ARIMA横型、量ARIMA横型、ARIMAX模型、向呈自回归横型、ARCH族模型。

    时间序列是指同一变量按事件发生的先后顺序排列起来的一组观察值或记录值。构成时间序列的要素有两个:其一是时间,其二是与时间相对应的变量水平。实际数据的时间序列能够展示研究对象在一定时期内的发展变化趋势与规律,因而可以从时间序列中找出变量变化的特征、趋势以及发展规律,从而对变量的未来变化进行有效地预测。

    时间序列的变动形态一般分为四种:长期趋势变动,季节变动,循环变动,不规则变动。

    时间序列预测法的应用

    1. 系统描述:根据对系统进行观测得到的时间序列数据,用曲线拟合方法对系统进行客观的描述;

    2. 系统分析:当观测值取自两个以上变量时,可用一个时间序列中的变化去说明另一个时间序列中的变化,从而深入了解给定时间序列产生的机理;

    3. 预测未来:一般用ARMA模型拟合时间序列,预测该时间序列未来值;

    4. 决策和控制:根据时间序列模型可调整输入变量使系统发展过程保持在目标值上,即预测到过程要偏离目标时便可进行必要的控制。

    特点

    假定事物的过去趋势会延伸到未来;预测所依据的数据具有不规则性;撇开了市场发展之间的因果关系。

    1. 时间序列分析预测法是根据市场过去的变化趋势预测未来的发展,它的前提是假定事物的过去会同样延续到未来。事物的现实是历史发展的结果,而事物的未来又是现实的延伸,事物的过去和未来是有联系的。市场预测的时间序列分析法,正是根据客观事物发展的这种连续规律性,运用过去的历史数据,通过统计分析,进一步推测市场未来的发展趋势。市场预测中,事物的过去会同样延续到未来,其意思是说,市场未来不会发生突然跳跃式变化,而是渐进变化的。

      时间序列分析预测法的哲学依据,是唯物辩证法中的基本观点,即认为一切事物都是发展变化的,事物的发展变化在时间上具有连续性,市场现象也是这样。市场现象过去和现在的发展变化规律和发展水平,会影响到市场现象未来的发展变化规律和规模水平;市场现象未来的变化规律和水平,是市场现象过去和现在变化规律和发展水平的结果。

      需要指出,由于事物的发展不仅有连续性的特点,而且又是复杂多样的。因此,在应用时间序列分析法进行市场预测时应注意市场现象未来发展变化规律和发展水平,不一定与其历史和现在的发展变化规律完全一致。随着市场现象的发展,它还会出现一些新的特点。因此,在时间序列分析预测中,决不能机械地按市场现象过去和现在的规律向外延伸。必须要研究分析市场现象变化的新特点,新表现,并且将这些新特点和新表现充分考虑在预测值内。这样才能对市场现象做出既延续其历史变化规律,又符合其现实表现的可靠的预测结果。

    2. 时间序列分析预测法突出了时间因素在预测中的作用,暂不考虑外界具体因素的影响。时间序列在时间序列分析预测法处于核心位置,没有时间序列,就没有这一方法的存在。虽然,预测对象的发展变化是受很多因素影响的。但是,运用时间序列分析进行量的预测,实际上将所有的影响因素归结到时间这一因素上,只承认所有影响因素的综合作用,并在未来对预测对象仍然起作用,并未去分析探讨预测对象和影响因素之间的因果关系。因此,为了求得能反映市场未来发展变化的精确预测值,在运用时间序列分析法进行预测时,必须将量的分析方法和质的分析方法结合起来,从质的方面充分研究各种因素与市场的关系,在充分分析研究影响市场变化的各种因素的基础上确定预测值。

      需要指出的是,时间序列预测法因突出时间序列暂不考虑外界因素影响,因而存在着预测误差的缺陷,当遇到外界发生较大变化,往往会有较大偏差,时间序列预测法对于中短期预测的效果要比长期预测的效果好。因为客观事物,尤其是经济现象,在一个较长时间内发生外界因素变化的可能性加大,它们对市场经济现象必定要产生重大影响。如果出现这种情况,进行预测时,只考虑时间因素不考虑外界因素对预测对象的影响,其预测结果就会与实际状况严重不符。


    Part15 生存分析

    用来研究生存时间的分布规律以及生存时间和相关因索之间关系的一种统计分析方法


    包含内容

    1. 描述生存过程,即研究生存时间的分布规律

    2. 比较生存过程,即研究两组或多组生存时间的分布规律,并进行比较

    3. 分析危险因素,即研究危险因素对生存过程的影响

    4. 建立数学模型,即将生存时间与相关危险因素的依存关系用一个数学式子表示出来。


    方法

    1. 统计描述:包括求生存时间的分位数、中数生存期、平均数、生存函数的估计、判断生存时间的图示法,不对所分析的数据作出任何统计推断结论

    2. 非参数检验:检验分组变量各水平所对应的生存曲线是否一致,对生存时间的分布没有要求,并且检验危险因素对生存时间的影响。

      • 乘积极限法(PL法)

      • 寿命表法(LT法)

      • 半参数横型回归分析:在特定的假设之下,建立生存时间随多个危险因素变化的回归方程,这种方法的代表是Cox比例风险回归分析法

      • 参数模型回归分析:已知生存时间服从特定的参数横型时,拟合相应的参数模型,更准确地分析确定变量之间的变化规律

    Part16 典型相关分析

    相关分析一般分析两个变量之间的关系,而典型相关分析是分析两组变量(如3个学术能力指标与5个在校成绩表现指标)之间相关性的一种统计分析方法。

    典型相关分析的基本思想和主成分分析的基本思想相似,它将一组变量与另一组变量之间单变量的多重线性相关性研究转化为对少数几对综合变量之间的简单线性相关性的研究,并且这少数几对变量所包含的线性相关性的信息几乎覆盖了原变量组所包含的全部相应信息。

    Part17 R0C分析

    R0C曲线是根据一系列不同的二分类方式(分界值或决定阈).以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线。

    用途

    1. R0C曲线能很容易地査出任意界限值时的对疾病的识别能力;

    2. 选择最佳的诊断界限值。R0C曲线越靠近左上角,试验的准确性就越高;

    3. 两种或两种以上不同诊断试验对疾病识别能力的比较,一股用R0C曲线下面积反映诊断系统的准确性。


    Part18 其他分析方法

    多重响应分析、距离分祈、项目分祈、对应分祈、决策树分析、神经网络、系统方程、蒙特卡洛模拟等。

    决策树分析与随机森林

    尽管有剪枝等等方法,一棵树的生成肯定还是不如多棵树,因此就有了随机森林,解决决策树泛化能力弱的缺点。(可以理解成三个臭皮匠顶过诸葛亮)

    1. 决策树(Decision Tree):是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。Entropy = 系统的凌乱程度,使用算法ID3, C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。

      决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。

    2. 分类树(决策树):是一种十分常用的分类方法。他是一种监督学习,所谓监督学习就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。

    优点:决策树易于理解和实现,人们在在学习过程中不需要使用者了解很多的背景知识,这同时是它的能够直接体现数据的特点,只要通过解释后都有能力去理解决策树所表达的意义。

    对于决策树,数据的准备往往是简单或者是不必要的,而且能够同时处理数据型和常规型属性,在相对短的时间内能够对大型数据源做出可行且效果良好的结果。易于通过静态测试来对模型进行评测,可以测定模型可信度;如果给定一个观察的模型,那么根据所产生的决策树很容易推出相应的逻辑表达式。

    缺点:对连续性的字段比较难预测;对有时间顺序的数据,需要很多预处理的工作;当类别太多时,错误可能就会增加的比较快;一般的算法分类的时候,只是根据一个字段来分类。

    来源:

    https://zhuanlan.zhihu.com/p/39214084utm_source=wechat_session&utm_medium=social&utm_oi=989900375968858112

    编辑:王菁

    校对:林亦霖

    展开全文
  • 清华大学大数据能力提升项目在“学校统筹,问题引导,社科突破,商科优势,工科整合,业界联盟”的指导原则下,通过多学科交叉融合的大数据课程体系,引入新的教学模式,培养大数据思维和素养,重点培养数据分析、...

    一、 项目定位

    在全球大数据浪潮中,清华大学大数据能力提升项目在“学校统筹,问题引导,社科突破,商科优势,工科整合,业界联盟”的指导原则下,通过多学科交叉融合的大数据课程体系,引入新的教学模式,培养大数据思维和素养,重点培养数据分析、数据管理和创新应用能力。

    大数据能力提升项目由清华大学研究生院、软件学院及相关院系共同设计组织实施,基于现行的大数据硕士项目,整合建设课程模块,形成大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,以培养提升学生大数据分析能力和创新应用能力。

    二、 培养对象

    本项目面向在学研究生(包括硕士和博士)

    三、 培养目标

    培养具有大数据思维和创新能力的“π”型人才;

    培养数据分析和管理数据的能力,培养宽广的视野、良好的职业素养和发展潜力,以能服务于政、产、学、研等领域的大数据相关工作。

    四、项目课程模块化设计

    五、获得证书的要求

    1. “基础技能模块”须获得大于等于3学分;“能力提升模块”在数据创新思维、大数据技术、数据统计分析、应用领域四个方向至少四选二,须获得大于等于4学分“实践模块”必修完成,须获得大于等于3学分;总学分不少于10学分

    2.  “基础技能模块”学分可以替换“能力提升模块”中相应方向的课程学分;“能力提升模块”学分不能替换“基础技能模块”的学分;“实践模块”必修,不能由“基础技能模块”、“能力提升模块”的学分替代;

    3.  从报名之日开始计算,2年内完成所修学分,满足上述要求者可申请由清华大学研究生院签发的清华大学大数据能力提升项目证书。

    六、项目报名、报名确认与证书申请

    【项目报名】

    1. 在学研究生在校期间,请登陆项目报名链接进行报名,https://www.wjx.cn/jq/89122277.aspx,并按照清华大学学生选课时间和要求进行此证书项目选课。

    2. 报名时须提交项目课程计划,建议信息学院同学选择B类课程;非信息学院同学可以根据自己专业背景,选择A类或B类课程。

    项目报名二维码

    【报名确认】

    提交报名申请后,一周内以邮件回复确认报名并分班。

    【证书申请】

    学生在毕业前达到获得证书的要求,每学期开学第四周可以申请办理,经核实批准后,颁发证书。

    七、联系方式

    如有问题请联系:软件学院 刘老师

    办公地址:伟清楼201

    联系电话:010-62773971

    邮     箱:sjkxyjy@mail.tsinghua.edu.cn

                            

    八、Q&A

      

    Q1 大数据能力提升项目什么时候可以报名?

    A1 报名时间:2020年8月26日-2020年9月30日。

     

    Q2 大数据能力提升项目什么时候可以选课?

    A2 能力提升项目课程和你培养计划里课程一样,需通过学校教务选课系统自行选课,请关注教务通知。

     

    Q3 项目课程是否需要加入培养方案?以学位课还是非学位课加入? 

    A3 项目课程必须加入培养方案,否则在学校教务系统无法选课;以学位课还是非学位课没有要求,可以参考所在院系规定。 

     

    Q4如果项目所选课程在教务系统没有选上,能否修改?

    A4允许修改,项目报名课程可以根据本人在教务系统选课而调整,领取证书以本人最终成绩单为准。

     

    Q5 课程A和课程B如何选择?

    A5 建议信息学院同学选择B类课程;非信息学院同学可以根据自己专业背景,选择A类或B类课程。

     

    Q6 是否是学位项目?是否收费?

    A6 不是学位项目,修完一定的学分,由清华大学研究生院颁发项目证书;项目不收取任何费用。

     

    Q7 若没有修完项目课程是否会影响毕业?所选课程挂科是否影响毕业?

    A7 不会影响毕业,修改培养方案需通过所在院系申请;课程挂科会影响毕业。 


    展开全文
  • 作者:PRANAV DAR翻译:张玲校对:车前子本文约6500字,建议阅读15分钟。本文首先详细介绍了数据工程的职责、与数据科学家之间的差别以及其不同的工作角色,然后重点...

    640?wx_fmt=png

    作者:PRANAV DAR

    翻译:张玲

    校对:车前子

    本文约6500字,建议阅读15分钟

    本文首先详细介绍了数据工程的职责、与数据科学家之间的差别以及其不同的工作角色,然后重点列出了很多与核心技能相关的的优秀学习资源,最后介绍行业内认可度较高的3种数据工程认证。


    简介


    在建立模型之前,在数据经过清洗用于探索分析之前,甚至在数据科学家工作开始之前,数据工程师就已经闪亮登场了。每一个数据驱动的业务都需要一个适用于数据科学管道的框架,否则就是失败的配置。


    大多数人怀揣着成为数据科学家的梦想进入数据科学世界,但却没有意识到数据工程师是做什么的,或者这个角色需要具备什么能力。数据工程师是数据科学项目的重要组成部分,以至于在当今数据丰富的环境里,产业对他们的需求正在指数式地上涨。


    640?wx_fmt=png


    目前,没有统一的或者正式的学习路线可供数据工程师使用。大多数担任这个角色的人是通过在工作中学习的,而不是遵循一个详细的学习路线。我写这篇文章的目的是帮助那些想成为数据工程师,但却不知道从哪里开始以及从哪里找到学习资源的人。


    本文中,我列出了所有有抱负的数据工程师需要知道的事情。首先,我们将了解什么是数据工程师,以及该角色和数据科学家的区别,然后将继续讨论你的技能宝箱中应该有的核心技能,以便完全胜任这个工作,最后我还提到了一些应该考虑的行业认可证书。


    好了,让我们直接开始吧!


    目录


    1. 什么是数据工程师

    2. 数据科学家和数据工程师的区别

    3. 数据工程中的不同角色

    4. 数据工程认证

    5. 核心数据工程技能及其学习资源

    1. 数据工程简介

    2. 基本语言要求:Python

    3. 扎实的操作系统知识

    4. 丰富、深入的数据库知识-SQL和NoSQL

    5. 数据仓库-Hadoop、MapReduce、Hive、Pig、Apache Spark、Kafka

    6. 基本的机器学习知识

    6. 总结


    1. 什么是数据工程师


    数据工程师负责构建和维护数据科学项目的数据架构,他们必须确保服务器和应用程序之间的数据流是连续的。改进数据基础应用程序,将新的数据管理技术和软件集成到现有系统中,构建数据收集管道及其他各种各样的事情,都属于数据工程师的职责。


    数据工程中最受欢迎的技能之一是设计和构建数据仓库的能力。数据仓库是收集、存储和检索所有原始数据的地方,如果没有数据仓库,一个数据科学家做的所有任务就会变得要么太昂贵,要么太大,以至于无法拓展。


    ETL(提取、转换和载入)是数据工程师构建数据管道所遵循的步骤,它实际上是一份关于如何处理、转换收集来的原始数据以备分析的蓝图。


    数据工程师通常有着工程背景,与数据科学家不同的是,这个角色不需要太多的学术和科学知识。因此,对构建大规模结构和体系结构的开发人员或工程师非常适合这个角色。

     

    2. 数据科学家和数据工程师之间的区别


    640?wx_fmt=png


    了解这两种角色之间的区别非常重要。从广义上讲,数据科学家综合使用统计学、数学、机器学习和行业知识来构建模型。他/她必须使用组织支持的相同工具/语言和框架来编码和构建这些模型。而数据工程师必须构建并维护适用于数据收集、处理和部署数据密集型应用的数据结构和体系架构。构建数据收集和存储管道,将数据汇总给数据科学家,从而将模型投入生产-这些只是数据工程师必须执行的任务中的一部分。


    要使任何大规模数据科学项目取得成功,数据科学家和数据工程师需要携手合作,否则事情很快就会出错。


    要了解有关这两个角色之间差异的更多信息,请访问我们的详细信息图。


    详细信息图:

    https://www.analyticsvidhya.com/blog/2015/10/job-comparison-data-scientist-data-engineer-statistician/


    3. 与数据工程相关的不同角色


    • 数据架构师:数据架构师为数据管理系统收集、整合和维护所有的数据源奠定基础,这个角色需要了解SQL、XML、Hive、Pig、Spark等工具。

    • 数据库管理员:顾名思义,担任此角色的人需要对数据库有着广泛的了解。职责包括确保数据库对所有需要的用户可用,适当地维护数据库,并且保证在添加新特性时没有任何中断。

    • 数据工程师:精通以上众多技巧的人。正如我们所见,数据工程师需要掌握数据库工具、Python和Java语言、分布式系统(如Hadoop)等知识,这个角色负责多种组合任务。

     

    4. 数据工程认证


    谷歌认证专家


    640?wx_fmt=jpeg


    这是目前最重要的数据工程认证之一。要获得此证书,你需要成功地通过一个具有挑战性的、2个小时多的考试,题型是多项选择题。你可以在这个网页上找到考试内容的大体范围,此外,这个网页提供给了一些实际操作谷歌云技术的实践指南。请一定要看一下!


    谷歌认证专家:

    https://cloud.google.com/certification/data-engineer


    IBM认证数据工程师



    640?wx_fmt=png


    要获得证书,你需要通过这个考试。考试包含54个问题,你必须正确回答44个。我建议在考试前,先了解IBM希望你了解的内容。“考试”链接中还提供了学习资料的进一步链接,你可以参考这些资料进行准备。


    IBM认证数据工程师:

    https://www.ibm.com/certify/cert?id=50001501


    考试:

    https://www.ibm.com/certify/exam?id=C2090-101


    Cloudera的CCP数据工程师


    640?wx_fmt=png


    这是另一个全球公认的认证,对新手来说是一个相当具有挑战性的认证。你的概念需要更新和深入,你应该有一些使用数据工程工具的实践经验,如Hadoop,Oozie,AWS Sandbox等。但是,如果你通过这次考试,对于你获得开启数据工程领域工作来说,会是一个充满希望的开始!


    Cloudera曾提到,如果你参加他们的Apache Spark和Hadoop培训课程,这将有助于你通过考试,原因是考试主要基于这两个工具。


    Cloudera的CCP数据工程师:

    https://www.cloudera.com/more/training/certification/ccp-data-engineer.html


    Apache Spark和Hadoop培训课程:

    https://www.cloudera.com/more/training/courses/developer-training-for-spark-and-hadoop.html


    5. 数据工程核心技能及其学习资源


    1. 数据工程简介

    2. 基本语言要求:Python

    3. 扎实的操作系统知识

    4. 丰富、深入的数据库知识-SQL和NoSQL

    5. 数据仓库-Hadoop、MapReduce、Hive、Pig、Apache Spark、Kafka

    6. 基本的机器学习知识


    a. 数据工程简介


    640?wx_fmt=png


    在深入了解角色之间的不同方面之前,首先得了解数据工程的实质是什么。数据工程每天执行的不同工作是什么?顶尖技术公司想要怎样的数据工程师?你是应该了解可见的所有一切,还是仅仅了解与某一特定角色相关的东西?我的目的是提供以下参考资料,以助你找到这些问题或者其余更多问题的答案。


    《数据工程入门指南》(第1部分):这是一篇非常受欢迎的、有关数据工程的文章,出自爱彼迎(Airbnb)的一位数据科学家之手。作者首先解释了为什么数据工程是所有机器学习项目中如此关键的一方面,然后深入探讨了本主题的每个部分。我认为这是所有想要成为数据工程师、数据科学家的新手们必读的一篇文章。


    《数据工程入门指南》(第1部分):

    https://medium.com/@rchang/a-beginners-guide-to-data-engineering-part-i-4227c5c457d7


    《数据工程入门指南》(第2部分):接着上面的文章,第2部分将介绍数据建模、数据分区、Airflow和ETL的最佳实践。


    《数据工程入门指南》(第2部分):

    https://medium.com/@rchang/a-beginners-guide-to-data-engineering-part-ii-47c4e7cbda71


    《数据工程入门指南》(第3部分):这是入门指南系列中的最后一部分,本部分将介绍数据工程框架的概念。在整个系列中,作者不断将理论与Airbnb的实践相结合,从而写了一篇篇精妙绝伦的文章,而且还在持续更新中。


    《数据工程入门指南》(第3部分):

    https://medium.com/@rchang/a-beginners-guide-to-data-engineering-the-series-finale-2cc92ff14b0


    O'Reilly的免费数据工程电子书套件:O'Reilly以其优秀的图书而出名,这一系列也不例外。不过,这些书是免费的!向下滚动到“大数据架构”部分,查看那里的书籍。有些书籍需要有大数据基础设施的基本知识,但这些书将有助于你熟悉复杂的数据工程任务。


    O'Reilly的免费数据工程电子书套件:

    https://www.oreilly.com/data/free/


    b. 基本语言要求:Python


    640?wx_fmt=png


    虽然还有其他的数据工程专用编程语言(如JAVA和Scala),但我们本文将只关注Python。我们看到业界已经明显转向使用Python,而且使用率正在快速上升。它已经成为数据工程师(和数据科学家)技能的重要组成部分。


    网络上有大量的学习Python资源,我在下面提到了其中的一些。


    在Scratch平台上使用Python学习数据科学的完整教程:KunalJain的这篇文章涵盖了一系列可以用来开始学习和提升Python的资源,这是必读的资源。


    在Scratch平台上使用Python学习数据科学的完整教程:

    https://www.analyticsvidhya.com/blog/2016/01/complete-tutorial-learn-data-science-python-scratch-2/


    使用Python的数据科学导论:这是Analytics Vidhya上最受欢迎的课程,涵盖了Python的基本知识。我们还额外介绍了核心统计概念和预测建模方法,以巩固你对python和数据科学基础的理解。


    使用Python的数据科学导论:

    https://trainings.analyticsvidhya.com/courses/coursev1:AnalyticsVidhya+DS101+2018T2/about


    Codeacademy上学习Python课程:本课程不需要编程基础,绝对是从python的最基础开始,这是一个很好的起点。


    Codeacademy上学习Python课程:

    https://www.codecademy.com/learn/learn-python


    如果你喜欢通过书本来学习,下面是一些免费的电子书,便于你开始学习:


    Allen Downey的《思考Python》:全面深入地介绍了Python语言,非常适合新手,甚至非程序员。


    Allen Downey的《思考Python》:

    http://www.greenteapress.com/thinkpython/thinkpython.pdf


    Python 3的非程序员教程:顾名思义,它是非IT背景和非技术背景新手们的完美起点,每章都有大量的示例来测试你的知识。


    Python 3的非程序员教程:

    https://upload.wikimedia.org/wikipedia/commons/1/1d/Non-Programmer%27s_Tutorial_for_Python_3.pdf


    c. 扎实的操作系统知识


    640?wx_fmt=png


    在整个数据科学世界的“机器”中,操作系统是使管道运转起来的重要“齿轮”。数据工程师应该了解基础设施组件(如虚拟机、网络、应用程序服务等)的输入和输出。你对服务器管理有多精通?你对Linux是否有足够的了解,可以浏览不同的配置吗?你对访问控制方法有多熟悉?作为一名数据工程师,这些只是你将面临的一些问题。


    Linux服务器管理和安全:本课程是为那些想了解Linux如何在公司应用的人而设计的,课程内容分为4周(最后还有一个项目),详细介绍了这个主题中的所有基本内容。


    Linux服务器管理和安全:

    https://www.coursera.org/learn/linux-server-management-security


    CS401-操作系统:和其他操作系统课程一样全面,这个课程包含9个部分,专门介绍操作系统的不同方面。主要介绍基于Unix的系统,尽管Windows也包括在内。


    CS401-操作系统:

    https://learn.saylor.org/course/cs401


    Raspberry Pi平台和Raspberry Pi的python编程:这是一个炙手可热的编程方式,现在对这种编程人员的需求空前高涨。本课程旨在让你熟悉Raspberry Pi环境,并让你开始学习Raspberry PI上的python基本代码。


    Raspberry Pi平台和Raspberry Pi的python编程:

    https://www.coursera.org/learn/raspberry-pi-platform


    d. 丰富、深入的数据库知识-SQL和NoSQL


    640?wx_fmt=png


    为了成为一名数据工程师,你需要熟练掌握数据库语言和工具。这是另一个非常基本的要求,你需要具备实时从数据库收集、存储和查询信息的能力。现今有很多可用的数据库,我已经列出了目前在业界广泛使用的数据库的相关资源,分为SQL和NoSQL两部分。


    • SQL数据库


    640?wx_fmt=jpeg


    免费学习SQL:这是codecademy另一个课程,你可以在这里学到SQL很基本的知识,像操作、查询、聚合函数这些主题从一开始就涵盖了。如果你是这个领域的新手,没有比这更好的起点了。


    免费学习SQL:

    https://www.codecademy.com/learn/learn-sql


    快速查找SQL命令的备忘录:一个非常有用的Github存储库,包含定期更新的SQL查询和示例。为了保证你在任何时候都可以快速查找SQL相关命令,请将为这个存储库加入收藏,作为日常参考。


    快速查找SQL命令的备忘录:

    https://github.com/enochtangg/quick-SQL-cheatsheet


    MYSQL教程:MySQL创建于20多年前,至今仍是业界的热门选择。这个资源是一个基于文本的教程,易于理解。这个站点最酷的是,每个主题都附带实用示例的SQL脚本和屏幕截图。


    MYSQL教程:

    http://www.mysqltutorial.org/


    学习Microsoft SQL Server:本教程从基础知识到更高的主题探讨SQL Sever的概念,并以代码和详细的屏幕截图的方式解释了概念。


    学习Microsoft SQL Server:

    https://www.tutorialspoint.com/ms_sql_server/


    PostgreSQL教程:这是一个让人惊叫的详细指南,让你开始和熟悉PostgreSQL。本教程分为16个部分,因此你完全可以想象出该课程的覆盖面有多广。


    PostgreSQL教程:

    http://www.postgresqltutorial.com/


    Oracle Live SQL:谁能比创建者更好地学习Oracle SQL数据库?这个平台设计得非常好提供了良好的终端用户体验。你可以在这个平台上查看脚本和教程,然后还可以在这里编码。哇,这太棒啦!


    Oracle Live SQL:

    https://livesql.oracle.com/apex/f?p=590:1000


    • NoSQL数据库


    640?wx_fmt=jpeg


    MongoDB来自MongoDB:这是目前最流行的NoSQL数据库,和上面提及的Oracle培训课程一样,学习MongoDB最好的方式是从创建它的大师们那里学习。我在这里链接了他们的整个课程目录,你可以选择你想参加的培训课程。


    MongoDB来自MongoDB:

    https://university.mongodb.com/courses/catalog


    MongoDB简介:本课程将帮助你快速启动和运行MongoDB,并教你如何利用它进行数据分析。这是一个为期3周的短课程,但有大量的练习。当你完成的时候,会觉得自己就是一名专家了!


    MongoDB简介:

    https://www.coursera.org/learn/introduction-mongodb


    学习Cassandra:如果你正在寻找一个优秀的、基于文本的、新手易于理解的Cassandra简介,这会是一个完美的资源。像Cassandra的架构、安装、关键操作等主题都会在这里有所介绍,本教程还提供了专门的章节来讲解CQL种可用的数据类型和集合、以及如何使用用户自定义的数据类型。


    学习Cassandra:

    https://www.tutorialspoint.com/cassandra/index.htm


    Redis Enterprise:了解Redis的资源不多,但这一个站点就足够了。有多个课程和精心设计的视频,使人沉浸其中,乐趣无穷,而且它是免费的!


    Redis Enterprise:

    https://university.redislabs.com/


    Google Bigtable:作为Google的产品,学习BigTable工作原理的资源稀缺得让人惊讶,我链接了一个包含大量谷歌云主题的课程,你可以向下滚动,选择BigTable(或BigQuery)。不过,我建议你仔细阅读整个课程,因为它提供了有关谷歌整个云产品如何工作的宝贵见解。


    Google Bigtable:

    https://www.coursera.org/learn/gcp-fundamentals


    Couchbase:这里提供多种培训课程(向下滚动查看免费培训课程),从初学者到高级都有。如果Couchbase是你们所用的数据库,那么你将在这里了解有关它的所有信息。


    Couchbase:

    http://training.couchbase.com/store


    e. 数据仓库-Hadoop、MapReduce、Hive、Pig、Apache Spark、Kafka


    640?wx_fmt=png


    现在,在每一个数据工程师的工作描述中都会看到像Hadoop(HDFS)这样的分布式文件系统。它是所有角色都需要掌握的,你应该非常熟悉。除此之外,你还需要了解ApacheSpark、Hive、Pig、Kafka等平台和框架,我在本节列出了所有这些主题的资源。


    • Hadoop和MapReduce


    640?wx_fmt=png


    Hadoop基础知识:这本质上是Hadoop的学习路径,它包括5门课程,可以让你深入地了解hadoop是什么、定义它的体系结构和组件是什么、如何使用它、它的应用怎么样以及其他更多的内容。


    Hadoop基础知识:

    https://cognitiveclass.ai/learn/hadoop/


    Hadoop入门包:对于想要着手开始学Hadoop的人来说,这是一个非常全面的、优秀的免费课程。它包括HDFS、MapReduce、Pig和Hive之类的主题,可以通过免费访问集群来练习所学的内容。


    Hadoop入门包:

    https://www.udemy.com/hadoopstarterkit/


    HortonWorks教程:作为Hadoop的创建者,HortonWorks拥有一套令人万分期待的课程,可以学习与Hadoop相关的各种知识。从低级到高级,本页有着非常全面的教程列表,一定要看一下这个!


    HortonWorks教程:

    https://hortonworks.com/tutorials/


    MapReduce简介:在阅读本文之前,你需要了解Hadoop的基本工作原理。请完成后,再回来深入了解MapReduce的世界。


    MapReduce简介:

    https://www.analyticsvidhya.com/blog/2014/05/introduction-mapreduce/


    Hadoop超越了传统的MapReduce-简版:本文介绍了Hadoop生态系统的概述,它超越了简单的MapReduce。


    Hadoop超越了传统的MapReduce-简版:

    https://www.analyticsvidhya.com/blog/2014/11/hadoop-mapreduce/


    更喜欢书吗?别担心,我已经帮你选好了!下面是一些免费电子书,涵盖hadoop和它的组件。


    《Hadoop详解》:简要介绍Hadoop的复杂体系,对Hadoop的工作原理、优势、现实场景中的应用程序等进行了高层次的概述。


    《Hadoop详解》:

    https://www.packtpub.com/packt/free-ebook/hadoop-explained


    《Hadoop-你应该了解的》:这本书和上面的书有相似的内容。正如描述所说,这些书所涵盖的内容足够让你了解Hadoop的方方面面,从而做出明智的决策。


    《Hadoop-你应该了解的》:

    https://www.oreilly.com/data/free/hadoop-what-you-need-to-know.csp?intcmp=il-data-free-lp-lgen_free_reports_page


    《使用MapReduce进行数据密集型文本处理》:这本免费电子书涵盖了MapReduce的基本知识及其算法的设计,然后深入探讨了你应该了解的示例和应用程序。建议你在阅读这本书之前先上上述课程。


    《使用MapReduce进行数据密集型文本处理》:

    https://lintool.github.io/MapReduceAlgorithms/MapReduce-book-final.pdf


    你应该加入Hadoop LinkedIn小组,以保证自己获取最新的消息,并询问你的任何问题。


    Hadoop LinkedIn小组

    https://www.linkedin.com/groups/988957/profile


    • Apache Spark


    640?wx_fmt=png


    Apache Spark、RDD和Dataframes(使用PySpark)的综合指南:这是一篇让你开始学习Apache Spark的终极文章,属于必读指南。它介绍了Apache Spark的历史以及如何使用Python、RDD/Dataframes/Datasets安装它,然后通过解决机器学习问题,对自己的知识点进行查漏补缺。


    Apache Spark、RDD和Dataframes(使用PySpark)的综合指南:

    https://www.analyticsvidhya.com/blog/2016/09/comprehensive-introduction-to-apache-spark-rdds-dataframes-using-pyspark/


    初学者学习Spark R的详细指南:如果你是R的用户,这个就是为你准备的!当然,你可以使用Spark和R,本文可以作为你的指南。


    初学者学习Spark R的详细指南:

    https://www.analyticsvidhya.com/blog/2016/06/learning-path-step-step-guide-beginners-learn-sparkr/


    Spark的基础知识:本课程涵盖Spark的基础知识、组件、使用方法、使用它的交互式示例和各种Spark库,最后了解Spark集群。你还能从这门课程中要求更多的内容吗?


    Spark的基础知识:

    https://cognitiveclass.ai/courses/what-is-spark/


    ApacheSpark和AWS简介:这是一门以实践为中心的课程。你将处理古登堡项目数据,它是世界上最大的电子书开放数据集。你还需要了解Python和Unix命令行,以便从本课程中学到更多。


    ApacheSpark和AWS简介:

    https://www.coursera.org/learn/bigdata-cluster-apache-spark-and-aws


    • 涵盖Hadoop、Spark、Hive和Spark SQL的综合教程


    大数据基础知识-HDF、MapReduce和Spark RDD:本课程采用真实的数据来教你基本的大数据技术-HDFS、MapReduce和Spark。这门课程非常详细,示例丰富,数据集实用,而且教师很优秀,属于经典课程。


    大数据基础知识-HDF、MapReduce和Spark RDD:

    https://www.coursera.org/learn/big-data-essentials


    大数据分析-Hive、Spark SQL、DataFrames 和GraphFrames:MapReduce和Spark解决了处理大数据的部分问题,通过这门直观的课程你可以掌握这些高级工具,从而掌握有关Hive和Spark SQL等方面的知识。


    大数据分析-Hive、Spark SQL、DataFrames 和GraphFrames:

    https://www.coursera.org/learn/big-data-analysis


    大数据应用-实时流:处理大数据的挑战除了要具备处理数据的计算能力,还要具备尽可能快的处理速度。像推荐引擎这样的应用程序需要实时地进行大量数据的处理、存储和查询,这就要求你掌握本课程中所提供的诸如Kafka、Cassandra和Redis等系统的知识。但要学习这门课程,你需要了解Hadoop、Hive、Python、Spark和Spark SQL的应用。


    大数据应用-实时流:

    https://www.coursera.org/learn/real-time-streaming-big-data


    • Kafka


    640?wx_fmt=png


    使用Apache Kafka简化数据管道:了解Apache Kafka及其体系架构和使用方法,你需要对Hadoop、Spark和Python有基本的了解,才能真正从本课程中获得最大的收获。


    使用Apache Kafka简化数据管道:

    https://cognitiveclass.ai/courses/simplifyingdatapipelines/


    Kafka官方文档:这是一个非常直观地介绍Kafka的工作原理及其组件的网页,它还提供了一个关于分布式流媒体平台的解释说明,非常棒!


    Kafka官方文档:

    https://kafka.apache.org/intro


    用Kafka给数据科学家赋能:这本身不是一个很好的学习资源,而是一篇介绍Stitch Fix的数据工程师如何根据数据科学家的要求构建一个平台的文章,非常有趣,而且十分详细。


    用Kafka给数据科学家赋能:

    https://multithreaded.stitchfix.com/blog/2018/09/05/datahighway/

     

    f. 基本的机器学习知识


    640?wx_fmt=png

    虽然人们普遍认为机器学习是数据科学家的领域,但数据工程师也需要精通其中的某些技术,原因在于你需要简化将模型投入生产的过程和用于数据收集、生成的管道。因此,你需要对机器学习算法有一个基本的了解。


    学习机器学习基础知识的新手指南:作者Kunal Jain精彩地介绍了机器学习世界,旨在消除你听到或读到地所有行话。指南直截了当地切入问题的核心,最终你会爱上这种写作风格。


    学习机器学习基础知识的新手指南:

    https://www.analyticsvidhya.com/blog/2015/06/machine-learning-basics/


    机器学习算法基本知识:这是一篇优秀的文章,提供了各种对机器学习算法的高层次理解,还提供了在R和python实现这些算法的指南,这是开启你学习旅程的绝佳地点!


    机器学习算法基本知识:

    https://www.analyticsvidhya.com/blog/2017/09/common-machine-learning-algorithms/


    新手必读的机器学习和人工智能书籍:如果你更喜欢看书,那么请阅读本文!这里收藏了最优秀的书,即使你只读了其中的几本,这也会助你朝着梦想中的事业迈进一大步!


    新手必读的机器学习和人工智能书籍:

    https://www.analyticsvidhya.com/blog/2018/10/read-books-for-beginners-machine-learning-artificial-intelligence/


    提升你知识和技能的24个终极数据科学项目:一旦你获得了一定量的知识和技能,请一定要把你的理论知识付诸实践。查看这些数据集,按照易到难的顺序,开始处理吧!


    提升你知识和技能的24个终极数据科学项目:

    https://www.analyticsvidhya.com/blog/2018/05/24-ultimate-data-science-projects-to-boost-your-knowledge-and-skills/


    6. 总结


    成为一名数据工程师并不容易,因为你需要从以上所有的资源中获取信息,而且你还要有着将工具、技术和职业道德融为一体的深入理解。由于现在是数据时代,数据工程师在业内需求巨大,对于任何愿意从事这一工作的人来说,这依旧是一个收入可观的职业选择!


    一旦你走上这条路,就力争成为数据工程师吧!请在下面的评论区,告诉我你对这组资源的反馈和建议。


    原文标题:

    Want to Become a Data Engineer? Here’s a Comprehensive List of Resources to get Started

    原文链接:

    https://www.analyticsvidhya.com/blog/2018/11/data-engineer-comprehensive-list-resources-get-started/


    译者简介


    640?wx_fmt=jpeg

    张玲,在岗数据分析师,计算机硕士毕业。从事数据工作,需要重塑自我的勇气,也需要终生学习的毅力。但我依旧热爱它的严谨,痴迷它的艺术。数据海洋一望无境,数据工作充满挑战。感谢数据派THU提供如此专业的平台,希望在这里能和最专业的你们共同进步!

    翻译组招募信息

    工作内容:将选取好的外文前沿文章准确地翻译成流畅的中文。如果你是数据科学/统计学/计算机专业的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友,数据派翻译组欢迎你们加入!

    你能得到:提高对于数据科学前沿的认知,提高对外文新闻来源渠道的认知,海外的朋友可以和国内技术应用发展保持联系,数据派团队产学研的背景为志愿者带来好的发展机遇。

    其他福利:和来自于名企的数据科学工作者,北大清华以及海外等名校学生共同合作、交流。


    点击文末“阅读原文”加入数据派团队~

    转载须知

    如需转载,请在开篇显著位置注明作者和出处(转自:数据派THU ID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

    发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。


    640?wx_fmt=png640?wx_fmt=jpeg

    点击“阅读原文”拥抱组织

    展开全文
  • 现在我们的配置已经载入内存了,接下来要载入COCO数据集的类别标签: # load the COCO class labels our YOLO model was trained on and # initialize a list of colors to represent each possible class # label ...
  • 运行此示例输出训练数据的维度,并通过测试约 9K 小时的数据对输入和输出集合进行训练,约 35K 小时的数据进行测试。 我们现在可以定义和拟合 LSTM 模型了。 我们将在第一个隐藏层中...
  • 我国个人消费信贷自2006飞速发展至今,其发展趋势上消费信贷的规模...更多精彩干货及线下活动,敬请关注公众号数据派THU(ID:DatapiTHU) 及姐妹号 THU数据派(ID:datapi) 。 点击“ 阅读原文 ”报名
  • 来源:数据派THU,编辑:数据SeminarPart1 描述统计描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。...
  • 我们可以通过一组数据了解推荐系统的价值: Netflix:2/3 被观看的电影来自推荐 Google新闻:38%的点击量来自推荐 Amazon:35%的销量来自推荐 当你看到这些数字,推荐系统的价值就不言而喻了吧? 1.3 用在哪(Where...
  • 因为绝对值 MAE和MSE的对比,这部分重点掌握 脚踏两只船的算法自然而然的就出现了,在小的取值时选择mse,能够动态调整梯度 ...本图整理自:数据派THU,作者董文辉。很不错的公众号,里面的文章都很经典 ...
  • 我们可以通过一组数据了解推荐系统的价值: Netflix:2/3 被观看的电影来自推荐 Google新闻:38%的点击量来自推荐 Amazon:35%的销量来自推荐 当你看到这些数字,推荐系统的价值就不言而喻了吧? 1.3 用在哪(Where...
  • 数据降维到二维或三维后,我们或许可以画图,将数据可视化,以观察数据具有的模式,获得对数据的直观感受; 特征变量过多或模型过于复杂可能导致模型过拟合。 如何处理数据集中缺失或损坏的数据? 你可以在数据...
  • 引子笔者在2015年7月创建了一个以分享滴滴打车红包为...从2015年8月到2017年8月,本群产生了约两万条红包分享记录,笔者最近将这些记录导出,通过数量,时间,语义等维度分析这些数据,下面将笔者自己的解读分享出来以
  • 数据派分享几个私藏公号给大家~ DT数据侠 我们用数据解读世界,分享优质数据侠原创内容,汇聚数据大咖独到观点,挖掘数据背后的商业价值和社会价值。我们也会经常举办线上线下的数据沙龙
  • 回首这一年,数据派的成长离不开志愿者和粉丝们一直以来的支持和陪伴,点点认识了很多新朋友也重逢了很多老朋友,每次我们的讲座活动,摄影师也都会记录下演讲台下的主角,你们的身影点点会一直珍存。 相信大家在这...
  • When you learn,teach.When you get, give.— Maya Angelou作为一个开放包容的团队,数据派本着分享与学习的目的欢迎各位志愿者的加入。我们...
  • 翻译:张玲校对:吴金迪本文约1500字,建议阅读5分钟。本文作者用python代码示例解释了3种处理不平衡数据集的可选方法,包括数据层面上的2种重采样数据集方法和算法层面...
  • 作者:Bety Rodriguez-Milla翻译:和中华校对:吴金笛本文约2800字,建议阅读8分钟。本文展示了当数据稀缺时,如何一步步进行分析从而得到一些见解。[ ...
  • 数据派THU翻译组工作内容:负责数据派THU“独家”系列推文的产出。工作内容主要包括三个步骤:1.数据科学领域学习类/应用类外文的选取;2.将选取好的外文文章翻译成流畅的中文;3....
  • 作者:Sangeet Aggarwal翻译:陈之炎校对:冯羽本文长度为2900字,建议阅读6分钟本文将带大家讨论如何从零开始数据科学之旅。标签:数据科学,机器学习数据科学,据说是本世纪...
  • 作者:PALAK11翻译:王闯 (Chuck)校对:陈 丹本文约1700字,建议阅读5分钟本文作者根据个人过往工作经验,整理出了处理非结构化数据的7个实例,希望能对读者处理相关实际问...
  • 来源:机器学习算法与Python实战本文多干货,建议收藏本文为你汇总机器学习相关数据集。大学公开数据集(Stanford)69G大规模无人机(校园)图像数据集【Stanford】http...
  • 作者:Jason Brownlee翻译:梁傅淇本文长度为1500字,建议阅读3分钟本文提供了七个不同分类的自然语言处理小型标准数据集的下载链接,对于有志于练习自然语言处理的新手而言,是极有帮助的资源。在你刚开始入手自然...
  • 来源:科技导报本文约2200字,建议阅读5分钟本文针对大数据安全技术与机制存在的问题,以及对未来我国大数据安全标准的建设提出了展望。数据已成为国家基础性战略资源,建立健全大数据安全保障体...
  • 数据院邀请到数据派研究部成员、清华大学工程力学系博士生姚易辰和清华热能系博士生李中杰前来分享他们在CIKM AnalytiCup 2017比赛上的夺冠参赛经验。此次讲座属于清华大数据能力提升项目的“实践模块”环节,通过...
  • 手把手教你用Keras进行多标签分类(附代码)_数据派THU-CSDN博客 手把手教你用Keras进行多标签分类(附代码)_数据派THU-CSDN博客
  • 回顾数据科学的早期发展历史,我们会发现有两个主题密切相连:大数据意味着计算机的使用频率增加;统计学家很难将纸张上所写算法用计算机实现。由此,数据科学得以...
  • 作者:Susan Li翻译:吴金笛校对:和中华本文约5000字,建议阅读12分钟。本文使用电子商务的评价数据集作为实例来介绍基于文本数据特征的数据分析和可视化。作为数据科...
  • 作者:Byron Allen翻译:陈丹校对:吴振东本文约2400字,建议阅读10分钟本文为大家介绍了数据科学家和数据工程师之间的鸿沟,并提供了Production ML作为解决方案。标...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 4,184
精华内容 1,673
热门标签
关键字:

数据派thu