精华内容
下载资源
问答
  • 开篇词: 1.利用MAS方法进行学习: M:Muti-Dimension 多...S:Sharing分享,即 将学到的知识,用自己的语言出来,分享给他人,在这个过程中,你会再一次的加深对知识的理解,也便于知识的梳理。 2.怎么和数据...

    开篇词:
    1.利用MAS方法进行学习:
    M:Muti-Dimension 多维度,即想要了解一个事物,就要多方位、多角度去认识它。
    A:Ask提问,即不懂就问。前提是首先经过自己的思考,资料的查找,还是存在疑惑,再向相关的人员请教。不要不好意思。
    S:Sharing分享,即 将学到的知识,用自己的语言讲出来,分享给他人,在这个过程中,你会再一次的加深对知识的理解,也便于知识的梳理。

    2.怎么和数据建立多维度连接呢?
    第一类是基础概念。这是我们学习的基础,一定不能落下。
    第二类是工具。工具可以锻炼我们的实操能力。
    第三类是题库。题库用于查缺补漏,在刷题的过程中,你会情不自禁地进行思考。

    3.学习数据分析的核心:培养数据思维,掌握数据分析相关(挖掘)工具,熟练实践并积累经验。

    01-数据分析全景图:
    1.数据分析可分为3部分:
    (1)数据采集。数据源就相当于我们的原材料,任何的分析都离不开数据源。了解常用的数据源,以及获取它们的方式。
    (2)数据挖掘。数据挖掘的核心是挖掘数据的商业价值,即商业智能BI。要知道数据挖掘的基本流程、十大算法、以及背后的数学基础。
    (3)数据可视化。数据可视化可以让我们直观地了解到数据分析的结果。

    2.进行数据可视化的两种方法:
    (1)使用Python。在Python对数据进行清洗、挖掘的过程中,我们可以使用Matplotlib、Seaborn等第三方库进行呈现。
    (2)使用第三方工具。比如微图、DataV、Data GIF Maker等第三方工具。

    3.借用傅盛的话来说,人与人最大的差别在于“认知”,所谓成长就是认知的升级。
    我们只有将知识转化为自己的语言,它才真正的变成了我们自己的东西。这个转换的过程就是认知的过程。
    那么如何提升自己的学习吸收能力呢?简单的说,就是要“知行合一”。

    4.如果你已经开始做数据分析的项目,你脑海中已经思考好了数据挖掘的算法模型,请牢记一下两个原则:
    (1)不重复造轮子。一个模型是否有相关的类库可以使用,这几乎是每个程序员入行被告知的第一条准则。大部分情况下,你都能找到类库来完成你的想法。
    (2)工具决定效率。工具无好坏之分,只有适合与否。除去研究型的工作,大部分情况下,工程师会选择使用者最多的工具。因为:Bug少、文档全、案例多。

    5.我们很难记住大段的知识点,也背不下来工具的指令,但是我们通常能够记住故事、做过的项目、做过的题目。这些题目和项目就是我们的“资产”,可以通过提高我们使用工具的熟练度,来快速积累这些“资产”。

    6.认识三步曲:从认知到工具,再到实战。(老师的学习建议)

    7.今后的学习要求:
    (1)记录下你每天的认知。
    (2)这些认知对应工具的哪些操作。用工具来表达你对知识点的掌握,并用自己的语言记录下这些操作。
    (3)做更多的练习来巩固你的认知

    展开全文
  • 数据分析实战45讲笔记(总结自极客时间陈旸老师) 开篇词 你为什么需要数据分析能力? 数据分析可以做哪些? 通过数据分析,我们可以更好地了解用户画像,为企业做留存率、流失率等指标分析,从而精细化产品运营 ...

    数据分析实战45讲笔记(总结自极客时间陈旸老师)

    开篇词

    你为什么需要数据分析能力?

    数据分析可以做哪些?

    • 通过数据分析,我们可以更好地了解用户画像,为企业做留存率、流失率等指标分析,从而精细化产品运营
    • 数据分析可以帮助预测比特币的走势
    • 数据分析可以为我们解决生活中的问题提供解决方案,如信用卡反欺诈,自动屏蔽垃圾邮件等

    什么是MAS方法

    • Multi-Dimension:想要掌握一个事物,就要从多个角度去认识它
    • Ask:不懂的问题就问,不要因不好意思不敢询问。(当然是要经过自己思考好,不能有问题就问,有问题就问,这样并不能很好的提升自己)
    • Sharing:最好的学习方法就是分享。将自己学到的知识用自己的理解将其”分享“出来,可以是写博客,也可以向朋友讲一讲,从而帮助加深自己对知识的理解和梳理

    怎么和数据分析建立多维度连接呢?

    • 第一类是基础概念。基础概念是我们学习的基础,是知识的基石,所以不能落下。
    • 第二类是工具。工具可以锻炼我们的实操能力。
    • 第三类是题库。题库的作用是帮助我们查漏补缺,并锻炼我们的思考能力。
    • 连接的过程就是我们从“思维”到“工具”再到“实践”的一个突破工程。

    数据分析的核心是什么呢?

    学习数据分析的核心就是培养数据思维,掌握挖掘工具,熟练实践并积累经验。

    展开全文
  • 上周在极客时间偶然看到陈旸博士的关于数据分析的课程,觉得很不错,便毫不犹豫的花钱买了这个课程,今天抽空看了实战分析第二,感触最深的就是学习过程一定要做笔记,不仅能锻炼自己的归纳总结能力,更能对这一...

         上周在极客时间偶然看到陈旸博士的关于数据分析的课程,觉得很不错,便毫不犹豫的花钱买了这个课程,今天抽空看了实战分析第二讲,感触最深的就是学习过程一定要做笔记,不仅能锻炼自己的归纳总结能力,更能对这一讲的东西进行回顾,还能时不时回头看看当初的想法。所以,我也试着开始做些笔记,毕竟大神都是这么过来的,好了,话不多说,进入今天的正题:数据分析全景图及修炼指南。

      该讲主要引导读者从全局去了解什么是数据分析?为什么做数据分析?怎么去做数据分析?答案就是:掌握数据,就是掌握规律。当你了解了市场数据,对它进行分析,就可以得到市场规律。当你掌握了产品自身的数据,对它进行分析,就可以了解产品的用户来源、用户画像等等。所以说数据是个全新的视角。数据分析如此重要,它不仅是新时代的“数据结构 + 算法”,也更是企业争夺人才的高地。

          谈到数据分析,我们一般都会从3个方面入手:

    • 数据采集 -- 数据源,我们要用的原材料
    • 数据挖掘 -- 它可以说是最“高大上”的部分,也是整个商业价值所在。之所以要进行数据分析,就是要找到其中的规律,来指导我们的业务。因此数据挖掘的核心是挖掘数据的商业价值(所谓的商业智能BI)
    • 数据的可视化 -- 数据领域中的万金油,直观了解数据分析结构

      数据分析的三驾马车的关系如下:

      

      下面来大致认识下这三驾马车:

      1)数据采集:

      数据的采集,主要是和数据打交道,用工具对数据进行采集,常用的数据源,如何获取它们。在专栏里,后续会将介绍如何掌握“八爪鱼”这个自动抓取的神器,它可以帮你抓取 99% 的页面源。也会教读者如何编写 Python 爬虫。掌握 Python 爬虫的乐趣是无穷的。它不仅能让你获取微博上的热点评论,自动下载例如“王祖贤”的海报,还能自动给微博加粉丝,让你掌握自动化的快感。

      

      2)数据挖掘:

      数据挖掘,它可以说是知识型的工程,相当于整个专栏中的“算法”部分。首先你要知道它的基本流程、十大算法、以及背后的数学基础。

      掌握了数据挖掘,就好比手握水晶球一样,它会通过历史数据,告诉你未来会发生什么。当然它也会告诉你这件事发生的置信度是怎样的。

      

      3)数据可视化

       为什么说数据要可视化,因为数据往往是隐性的,尤其是当数据量大的时候很难感知,可视化可以帮我们很好地理解这些数据的结构,以及分析结果的呈现。这是一个非常重要的步骤,也是我们特别感兴趣的一个步骤。

     数据可视化的两种方法:

      Python :在 Python 对数据进行清洗、挖掘的过程中,很多的库可以使用,像 Matplotlib、Seaborn 等第三方库进行呈现。

      第三方工具:如果你已经生成了 csv 格式文件,想要采用所见即所得的方式进行呈现,可以采用微图、DataV、Data GIF Maker 等第三方工具,它们可以很方便地对数据进行处理,还可以帮你制作呈现的效果。

       

      数据分析包括数据采集、数据挖掘、数据可视化这三个部分。乍看你可能觉得东西很多,无从下手,或者感觉数据挖掘涉及好多算法,有点“高深莫测”,掌握起来是不是会吃力。其实这些都是不必要的烦恼。个人觉得只要内心笃定,认为自己一定能做成,学成,其他一切都是“纸老虎”哈。

      再说下,陈博在文章中提到的如何来快速掌握数据分析,核心就是认知。我们只有把知识转化为自己的语言,它才真正变成了我们自己的东西。这个转换的过程就是认知升级的过程。

      

      我本人也是很赞同这种说法,简单一句就是“知行合一”

      总结

    • 记录下你每天的认知  
    • 这些认知对应工具的哪些操作
    • 做更多练习来巩固你的认知

     

    转载于:https://www.cnblogs.com/zdd-803/p/10290625.html

    展开全文
  • 之前学了陈旸老师的《数据分析实战45讲》(掌柜现在觉得该课程偏向于技术方向的数据挖掘),让掌柜对数据分析的工具(主要是Pandas、Numpy、Matplotlib以及Scikit-learn)使用和步骤有了一个大致的了解。 但是学完后...

    之前学了陈旸老师的《数据分析实战45讲》(掌柜现在觉得该课程偏向于技术方向的数据挖掘),让掌柜对数据分析的工具(主要是Pandas、Numpy、Matplotlib以及Scikit-learn)使用和步骤有了一个大致的了解。

    但是学完后还是觉得里面漏了一些细节的东西,比如时间序列那里没有讲对差分次数d的查找;泰坦尼克号项目分析的时候只浅谈了交叉验证方法等。于是掌柜就开了这个项目还没写,就居然有人给了一个星😂惊讶),把部分章节里面漏了的细节知识补上去,权当是给自己一个重新巩固、整理知识点的机会。(当然,如果你发现掌柜有误解的地方或者你觉得有更好的补充,欢迎提出来,谢谢! 如果对你有帮助,那就更好了!

    废话就到这里,下面就看第十一章:

    11 | 数据科学家80%时间都花费在了这些清洗任务上?

    这章主要讲的是关于数据清洗的,数据清洗也是数据分析面试中常考的一个点!掌柜建议可以结合之前写的那篇MySQL的数据清洗一起服用,效果更好。现在我们先看原始的数据集:
    在这里插入图片描述
    是不是很懵逼?因为数据缺少标注导致根本不清楚每一列表示的数据含义,虽然实际工作中可能很少会遇到这样的情况,但是一旦遇到了,我们就要先解决数据标注的问题。这张表是一家服装店的会员数据,所以当知道了该表格的含义后,就可以把每列的列名标注上去,然后就得到下面这张表:
    在这里插入图片描述
    其中m是男性的三围,f是女性的三围。然后再看这里的“脏”数据,因为数据量很少就比较容易发现,有缺失值、NaN值以及单位不统一等问题。

    而根据陈老师总结的数据清洗规则:“完全合一”,首先需要处理的就是完整性

    PS补充第一点

    1. 如何检查数据集是否含有缺失值? 这里官方用的是isna()方法,True就是有缺失值:
      在这里插入图片描述
      但是很奇怪的是掌柜在使用该方法后直接给我报错:
      在这里插入图片描述
      。。。这就尴尬了,后来掌柜用了下面👇的isnull()方法就ok了。。。
      在这里插入图片描述
      掌柜猜测可能是版本问题,而在之前数据分析面试篇里面掌柜也提到过如何统计缺失值数量,只需要在后面加个sum()函数即可。

    2. 可以发现该数据集里面年龄和体重以及三围存在部分缺失值,那么第二个问题来了,缺失值的处理方法有哪些?陈老师说了三种,但是掌柜翻看众多资料后发现不止三种方法(补充第二点👆):

    • 删除法(而删除法又可以细分为下面两种情况):
      • 变量删除:当该变量缺失值很多且对要分析研究的问题不重要的时候可以直接删除;
      • 整列/整行删除:当缺失值不是很多,占比不大的时候可用。不过该方法会减少有效样本数量;

    比如这里就可以用dropna()方法直接删除第九行整行的缺失值:
    在这里插入图片描述
    在这里插入图片描述

    • 数据填充(填充法又可以细分为下面几种情况):
      • 人工填充:当数据量很小的时候可考虑,大数据成百上千的就算了;

      • 均值填充:这里指的是用均值(数值型)、中位数、众数(非数值型)等来填充。一般如果特征分布为正太分布时,使用平均值效果比较好,而当分布由于异常值存在而不是正太分布的情况下,使用中位数效果比较好。若是非数值型数据则用众数(即用最高频的属性值填充)。
        注意:此方法易引入噪声数据,有可能影响后面的特征的分布
        在这里插入图片描述
        在这里插入图片描述

      • 相邻值填充:即用相邻的数值来填充NaN值,分为前值填充和后值填充
        在这里插入图片描述

      • 热卡填充:即在数据集里面找到和它最相似的对象的值来填充。该方法难点在于相似的标准不易确定,主观因素较多。

      • 拟合变量预测缺失值

        • 回归预测:(后面也会细讲,这里简单介绍)即用已知的特征值带入回归模型对含缺失值的特征值进行预测并填补缺失值。前提是变量之间呈线性的关系!

        • 随机森林:(后面也会详解)示例代码见下章。

      • 算法估算缺失值

        • KNN(K-Nearest Neighbor)算法 (这里先不对KNN算法详解,后面会有章节介绍):又叫K近邻算法,主要是先通过欧式距离确定含缺失值的样本同离它最近的K个无缺失值样本,然后再用这K个无缺失值样本的属性值加权平均来估算那个样本的缺失值。

        • EM(Expetation Maximum最大化期望值)算法:(同上👆)说到EM算法,就要先说一个概念----极大似然估计(Maximum Likelihood),简单来讲是对一件已经发生的事情进行反推,找到最有可能造成它发生的因素是什么。再回到这里用EM算法估算缺失值的方法,是先在现有观测数据和已知参数条件下,利用似然函数求出缺失值的相应条件期望;然后重新计算参数的极大似然估计值;一直迭代上面两步骤直到参数不再发生变化。不过此方法需要注意前提条件是缺失数据是随机的! 此算法虽然效果可能略好,但是计算很复杂且收敛速度也不是很好。

      • 多重填补

    填补
    填补
    填补
    填补
    填补
    进行统计分析
    进行统计分析
    进行统计分析
    进行统计分析
    进行统计分析
    缺失值
    填补值1
    填补值2
    填补值3
    填补值4
    填补值5
    分析结果1
    分析结果2
    分析结果3
    分析结果4
    分析结果5
    最终结果

    👆图就是多重填补的大致流程,简单解释一下:首先是用复杂的方法对每个缺失值产生一个填补值,然后形成一个填补值集合;接着对每个填补值用标准的统计分析方法进行分析;最后把各自分析的统计结果汇总,产生最终的估值就可以作为缺失值的填补。这种方法是通过产生一个缺失值的随机样本来更准确的表明由于数据缺失而导致的不确定性,能够产生更加有效的统计推断。

    • 把变量映射到高维空间 (适用于样本量极大的时候)

      • 优点:保证了数据的完整性
      • 缺点:计算量很大
    • 最后就是不处理,后面依靠神经网络和贝叶斯网络进行数据挖掘,这里不做展开。

    PPS:上面处理缺失值的方法较多,个人觉得EM算法和多重填补更优;但是具体场景下该用什么方法还是要联系实际情况。

    (未完待续。。。)
    下一章会把补充的知识点做成脑图,和代码一并上传GitHub方便大家理解,谢谢!

    参考资料:
    pandas官方文档
    数据分析中的缺失值处理
    详解EM算法填补缺失值
    多重填补

    展开全文
  • 数据分析实战基础

    2019-03-07 19:06:13
    最近听了陈旸老师的《数据分析实战45讲》,老师说的分享对于理解知识有很重要的作用,很有感触。以往学习相关的课程我都是记在笔记本上,没有记博客的习惯,那现在开始要养成这个习惯啦,这也是我的第一篇博客。 ...
  • 端午节到了,猫哥祝大家节日安康,...《数据分析实战45讲》 ,作者是清华大学计算机系博士陈旸,最近刚刚更新完毕,总计 48 篇文章,163789 字,音频时长约 9 小时。 这个专栏有三大核心组成部分:数据采集、数据可...
  • 大家好,我是陈旸,也是极客时间《数据分析实战 45 》专栏作者。很荣幸接到极客时间的邀请,来到极客Live和大家分享关于“数据分析”的话题。这次分享会共分为五部分,来为大家答疑解惑。\n\n我们为什么要学数据...
  • Python之数据类型

    2019-05-30 20:28:38
    【参考:极客时间陈旸——数据分析实战45讲】 数据类型:列表、元组、字典和集合 1.列表 lists = ['a','b','c'] lists.append('d') print lists print len(lists) lists.insert(0,'mm') lists.pop() print lists ...
  • 朴素贝叶斯分类

    2021-01-13 21:29:54
    本文为 数据分析实战45讲-陈旸 课程笔记 贝叶斯原理
  • 大家好,我是陈旸,也是极客时间《数据分析实战 45 》专栏作者。很荣幸接到极客时间的邀请,来到极客 Live 和大家分享关于“数据分析”的话题。这次分享会共分为五部分,来为大家答疑解惑。我们为什么要学数据分析...

空空如也

空空如也

1 2
收藏数 23
精华内容 9
热门标签
关键字:

陈旸数据分析实战45讲