精华内容
下载资源
问答
  • 站在时代浪尖上程序员只有具备统计思维才能掌握数据分析必杀技。本书正是一本概率统计方面入门图书,但视角极为独特,折射出大数据浪潮别样风景。作者将基本概率统计知识融入Python编程,告诉你如何借助...
  • 站在时代浪尖上程序员只有具备统计思维才能掌握数据分析必杀技。本书正是一本概率统计方面入门图书,但视角极为独特,折射出大数据浪潮别样风景。作者将基本概率统计知识融入Python编程,告诉你如何借助...
  • 大数据与统计思维

    2018-06-20 10:57:51
    最近,《大数据时代》等几本书引起了广泛的关注,大数据正在改变着人们的行为与思维,那么以数据为研究对象的统计学该如何应对,本文基于大数据的理解,认为统计思维需要发生三个方面的改变,即要改变认识数据的思维、...
  • 站在时代浪尖上程序员只有具备统计思维才能掌握数据分析必杀技。本书正是一本概率统计方面入门图书,但视角极为独特,折射出大数据浪潮别样风景。作者将基本概率统计知识融入Python编程,告诉你如何借助...
  • 统计思维读书笔记

    2020-04-02 17:38:48
    内容总览 大家好,本人是一名初入机器学习领域的小白。偶然之下看到了这本书, ...学生可以通过编写程序来深化和检查自己概念的理解。 例如, 编 写计算最小二乘拟合、 残差和判定系数的函数, 编写和测试这些...

    内容总览

    大家好,本人是一名初入机器学习领域的小白。偶然之下看到了这本书,

    感觉很有趣,很适合作为一个入门书籍来看(_)

    简介

    本书是一本全新的概率统计入门教材, 重点介绍如何用统计学方法分
    析大型数据集。 本书会介绍如何使用计算机实现各种统计方法, 这有
    诸多优点。

    • 学生可以通过编写程序来深化和检查自己对概念的理解。 例如, 编 写计算最小二乘拟合、 残差和判定系数的函数, 编写和测试这些代
      码需要他们正确理解相关概念,消除各种可能的误解。

    • 学生能够通过计算实验来验证统计学上的一些定理。 例如, 生成 服从各种分布的样本来验证中心极限定理(Central Limit Theorem, CLT)。 当发现服从帕累托分布的样本并没有收敛到正态分布时, 他 们肯定会记住中心极限定理的前提条件。

    • 有些从数学上很难理解的概念可以很容易地用模拟方法来阐述。 例 如,通过蒙特卡罗模拟近似求出 p 值,就能说明 p 值的含义。

    • 使用离散分布和计算方法可以把贝叶斯模拟之类在入门课程中很少 见的内容讲清楚。 例如, 本书中有个练习要求学生计算“德国坦克问题”(German tank problem) 的后验分布, 通过理论分析很难得到 答案,但用计算手段却很容易得出结果。

    • 因为学生使用的是通用编程语言 Python, 所以他们可以导入各种来 源的数据,并不局限于那些已经为特定统计工具整理好的数据。
      本书内容是按项目来组织的。 在我的课上, 学生会用一个学期的时间 来做一个项目, 在此期间他们要提出统计学问题、 找到合适的数据 集,
      并用学到的技术来处理这些数据。

    • 为了演示我想要学生做的分析, 本书会有一个贯穿全书的实例。 它所 使用的数据主要有以下两个来源。

    1. 由美国疾病控制与预防中心(Centers for Disease Control and Prevention, CDC)主持的全国家庭成长调查(National Survey of Family Growth, NSFG)项目,该项目是为了收集美国人的“家庭生活、婚姻状况、生育、 避孕和男女健康等信息”(参见 http://cdc.gov/nchs/nsfg.htm )。
    2. 由全国慢性病预防和健康促进中心主导的行为风险因素监测系统(the Behavioral Risk FactorSurveillance System, BRFSS), 该系统旨在跟 踪“美国人的健康状况和危险行为”(参见http://cdc.gov/BRFSS/) 。 其他例子所使用的数据则来自 IRS( 美国国税局) 、 美国人口普查和波士顿马拉松比赛
    展开全文
  • 站在时代浪尖上程序员只有具备统计思维才能掌握数据分析必杀技。本书正是一本概率统计方面入门图书,但视角极为独特,折射出大数据浪潮别样风景。作者将基本概率统计知识融入Python编程,告诉你如何借助...
  • Downey所著的《统计思维:程序员数学之概率统计》,由于文章中大部分的函数操作都是基于作者自己写的模块thinkstats2,为了能够使用常用python库来复现操作,加深自己文章内容的理解,故记录此读书笔记。...

    最近在阅读Allen B. Downey所著的《统计思维:程序员数学之概率统计》,由于文章中大部分的函数操作都是基于作者自己写的模块thinkstats2,为了能够使用常用python库来复现操作,加深自己对文章内容的理解,故记录此读书笔记。

    前期准备

    首先导入数据分析三件套

    import numpy as np
    import pandas as pd
    import matplotlib.pyplot as plt
    

    之后为了导入文章所用数据,需要使用sys模块,再把数据文件所在的路径复制到sys.path列表当中。

    import sys
    sys.path.append('E:\\Anaconda\\Lib\\ThinkStats2-master\\code')
    

    再传入数据,nsfg文件中的ReadFemPreg函数会返回一个描述美国新生儿数据的DataFrame,用作之后的分析。

    import nsfg
    df = nsfg.ReadFemPreg(dct_file='E:\\Anaconda\\Lib\\ThinkStats2-master\\code\\2002FemPreg.dct', dat_file='E:\\Anaconda\\Lib\\ThinkStats2-master\\code\\2002FemPreg.dat.gz')
    

    绘制直方图

    直方图的绘制主要用到plt模块中的hist函数。当绘制产妇怀孕数据的直方图时,发现与书上结果不同。检查后发现需要添加成功怀孕(即outcome=1)的条件。代码如下:

    # 找出成功生育的产妇,并去除空值
    weeks = df.prglngth[df['outcome']==1].dropna() 
    # bins指定直方个数,density指定是否将纵坐标归一化,edgecolor指定边框颜色
    hist = plt.hist(weeks, bins=16, density=True, edgecolor='black')
    plt.xlabel('Weeks of pregnancy') # x轴命名
    plt.ylabel('Frequency') # y轴命名
    

    怀孕周数分布直方图
    另外,通过设置直方图的 histtype 参数,可以实现用不同方式将两类数据组合在一张图中。我分别选取了成功生育和未成功生育的产妇的怀孕周数数据,并通过在两个子图中分别设置 histtype 参数为 bar 或 barstacked,来直观地体现出两者的差距。

    plt.figure(figsize=[10,10]) 
    ax1 = plt.subplot(2, 1, 1) # 初始化子图1
    ax2 = plt.subplot(2, 1, 2) # 初始化子图2
    weeks_live = df.prglngth[df['outcome']==1].dropna() # 成功生育产妇数据
    weeks_all = df.prglngth[df['outcome']!=1].dropna() # 未成功生育产妇数据
    hist = ax1.hist([weeks_live, weeks_all], bins=30, density=True, edgecolor='black', alpha=0.7, histtype='bar')
    hist = ax2.hist([weeks_live, weeks_all], bins=30, density=True, edgecolor='black', alpha=0.7, histtype='barstacked')
    

    结果如下,上图参数值为 bar,数据左右并列;下图参数值为 barstack,数据上下重叠。
    在这里插入图片描述

    第一胎的宝宝经常晚于预产期出生吗?

    这是书中刚开头便抛出的统计学问题,在有了统计数据后,便可以对该假设做进一步验证了。作者在本章中只是对结论作出了直观说明,并没有给出统计学证明(查询目录后发现作者在第九章中证明了),这里我将尝试使用统计学方法对该问题进行假设检验。步骤如下:
    (1)首先分别观测头胎和非头胎母亲的怀孕周数数据
    分别绘制直方图

    live = df[df['outcome']==1]
    firsts = live.prglngth[live['birthord']==1].dropna() # 头胎数据
    others = live.prglngth[live['birthord']!=1].dropna() # 非头胎数据
    hist = plt.hist([firsts, others], bins=30, density=True, edgecolor='black', alpha=0.7)
    

    头胎与非头胎母亲怀孕周数
    基本认为数据满足正态分布,且样本数量足够大,故可选用z检验方法。
    (2)进行z检验
    首先确定原假设和备择假设
    H0H_0WfirWothW_{fir} \le W_{oth}H1H_1Wfir>WothW_{fir} > W_{oth}
    并设定显著性水平为 α=0.05\alpha =0.05
    接下来就可以进行z检验了

    fir_avg, oth_avg = firsts.mean(), others.mean() # 均值
    fir_var, oth_var = firsts.var(), others.var() # 方差
    # 进行z检验
    pooled_var = fir_var / len(firsts) + oth_var / len(others)
    diff = (fir_avg - oth_avg) / pooled_var ** 0.5
    

    得到z=1.377z=1.377,小于临界值u1α=1.645u_{1- \alpha}=1.645,故接受原假设H0H_0,认为:头胎产妇平均怀孕周数不大于非头胎产妇平均怀孕周数。

    展开全文
  • - 学生可以通过编写程序来深化和检查自己概念的理解。 例如, 编写计算最小二乘拟合、 残差和判定系数的函数, 编写和测试这些代码需要他们正确理解相关概念,消除各种可能的误解。 - 学生能够通过计算实验来...

    封面

    在这里插入图片描述

    简介

    本书是一本全新的概率统计入门教材,重点介绍如何用统计学方法分析大型数据集。
    本书会介绍如何使用计算机实现各种统计方法,这有诸多优点。

    • 学生可以通过编写程序来深化和检查自己对概念的理解。 例如, 编写计算最小二乘拟合、 残差和判定系数的函数, 编写和测试这些代码需要他们正确理解相关概念,消除各种可能的误解。
    • 学生能够通过计算实验来验证统计学上的一些定理。 例如, 生成服从各种分布的样本来验证中心极限定理(Central Limit Theorem,CLT)。 当发现服从帕累托分布的样本并没有收敛到正态分布时, 他们肯定会记住中心极限定理的前提条件。
    • 有些从数学上很难理解的概念可以很容易地用模拟方法来阐述。 例如,通过蒙特卡罗模拟近似求出 p 值,就能说明 p 值的含义。
    • 使用离散分布和计算方法可以把贝叶斯模拟之类在入门课程中很少见的内容讲清楚。 例如, 本书中有个练习要求学生计算“德国坦克问题”(German tank problem) 的后验分布, 通过理论分析很难得到答案,但用计算手段却很容易得出结果。
    • 因为学生使用的是通用编程语言 Python, 所以他们可以导入各种来源的数据,并不局限于那些已经为特定统计工具整理好的数据。本书内容是按项目来组织的。

    为了演示我想要学生做的分析, 本书会有一个贯穿全书的实例。 它所使用的数据主要有以下两个来源。

    • 由美国疾病控制与预防中心(Centers for Disease Control and Prevention,CDC) 主持的全国家庭成长调查(National Survey of Family Growth,NSFG) 项目,该项目是为了收集美国人的“家庭生活、婚姻状况、生育、避孕和男女健康等信息”。
    • 由全国慢性病预防和健康促进中心主导的行为风险因素监测系统(theBehavioral Risk Factor Surveillance System, BRFSS), 该系统旨在跟踪“美国人的健康状况和危险行为” 。
    • 其他例子所使用的数据则来自 IRS(美国国税局)、 美国人口普查和波士顿马拉松比赛。

    云图

    这里写图片描述

    展开全文
  • 本节书摘来异步社区《贝叶斯思维统计建模的Python学习法》一书中的第1章,第1.5节,作者:【美】Allen B. Downey,更多章节内容可以访问云栖社区“异步...这种贝叶斯定理的理解被称为“历时诠释”。 “历时”...

    本节书摘来异步社区《贝叶斯思维:统计建模的Python学习法》一书中的第1章,第1.5节,作者:【美】Allen B. Downey,更多章节内容可以访问云栖社区“异步社区”公众号查看

    1.5 历时诠释

    还有另外一种理解贝叶斯定理的思路:它给我们提供的是一种根据数据集D的内容变化更新假设概率H的方法。

    这种对贝叶斯定理的理解被称为“历时诠释”。

    “历时”意味着某些事情随着时间而发生;在本例,即是假设的概率随着看到的新数据而变化。

    在考虑H和D的情况下,贝叶斯定理的表达式可以改写成:

    在这种解释里,每项意义如下:

    p(H)称为先验概率,即在得到新数据前某一假设的概率。
    p(H |D)称为后验概率,即在看到新数据后,我们要计算的该假设的概率。
    p(D|H)是该假设下得到这一数据的概率,称为似然度。
    p(D)是在任何假设下得到这一数据的概率,称为标准化常量。
    有些情况,我们可以基于现有背景信息进行计算。比如在曲奇饼问题中,我们就将随机选中碗1或碗2的概率假设为均等。

    在其他情况下,先验概率是偏主观性的;对某一先验概率,理性派的人可能会有不同意见,或许由于他们使用不同的背景信息做出判断,或者因为他们针对相同的前提条件做出了不同的解读。

    似然度是贝叶斯计算中最简单的部分,在曲奇饼问题中曲奇饼来自来自哪个碗,则我们就计算那个碗中香草曲奇饼的概率。

    标准化常量则有些棘手,它被定义为在所有的假设条件下这一数据出现的概率,但因为考虑的正是最一般的情况,所以不容易确定这个常量在具体应用场合的现实意义。

    最常见的,我们可以指定一组如下的假设集来简化。

    互斥的:集合中,至多一个假设为真。

    完备的:集合中,至少一个假设必为真,且集合包含了所有的假设。

    我使用suite这个词来表示具备上述属性的假设集。

    在曲奇饼问题中,仅有两个假设:饼干来自碗1或者碗2,它们就是互斥的和完备的。

    在本例中,我们可以用全概率公式计算p(D),即如果发生某一事件有互不容的两个可能性,可以像下面这样累加概率:

    p(D) = p(B1)p(D|B1) + p(B2)p(D|B2)

    代入饼干问题中的实际值,得到:

    p(D) = (1/2)(3/4) + (1/2)(1/2) = 5/8

    我们早前心算得到的结果也是一样的。

    展开全文
  • 大家好,欢迎和我们一起学习《SPSS软件应用与统计思维》课。统计对于你,是新朋友还是老朋友呢,或者根本算不上朋友?的确,有许多同学,尤其是我身边一些学医小伙伴儿们,没有经过系统数学训练,可能基本微...
  • 为了激发学生们学习热情,促进学生们数学类课程知识体系深入理解,现在,我们要举办数学类课程思维导图大赛了!面向对象:所有在校学生。包括但不限于中央财经大学管理科学与工程学院,欢迎本校其他学院、兄弟...
  • 思路: 动态减少每次求和如果复杂度很大不好想,尝试逆向...不太理解就再复习一下floyddp思想。 最外层floyd即枚举中间点k,那么我们加一个点,就把它用于全图更新。 #include<iostream> #include<vect
  • 在本文当中,我们介绍一些简单但经典实用传统机器学习算法,让大家机器学习算法有一个基本感性认识。有人说机器学习入门并不难,有人会觉得机器学习难以理解。那么该如何去学习机器学习这种技术与方法呢?...
  • 本文用一系列「思维导图」由浅入深总结了「统计学」领域基础知识,是之前系列文章做一次完整梳理,也是我至今为止所有与统计有关学习笔记。众所周知,「统计学」是深入理解「机器学习|数据挖掘」重要...
  • 想通过这篇文章解释一下degree of freedom,不力求面面聚到,只希望看完这篇文章后,degree of freedom 这个陌生而熟悉的概念,有一个形象和全新的理解。 什么是自由度(degree of freedom) 自由度并不是一个很...
  • 概率统计无处不在,它被广泛地应用于各行各业,金融、保险、天气预测等都离不开统计概率,本次分享是对统计概率基础知识梳理和总结。统计概率几个基础定义概率概率是对事件发生可能性数值度量,介于0~1之间,...
  • 读书笔记《用理工科思维理解世界》 ·煽情是文人膝跳反应,大多数中国人来说,煽情是他们最能听懂语言。 ·杀死一个人是悲剧,杀死一万个人是统计数字。 ·在互联网技术蓬勃发展之前,人们一直活在“具体”...
  • 而在程序员的思维中,动物是对象, 天性是这个类方法或者属性。再延伸一下,比如Python是面向对象编程语言。有List、Str、Dict、Tuple等数据类型,这些数据类型也是对象,比如List类可以有count方法,我们可以通过...
  • (2)统计分析、时间序列分析数据要求? (3)平稳时间序列有什么用? (4)平稳序列成分是什么?是不含趋势,还是什么都不含? (5)平稳序列与纯随机序列区别? 3. 自协方差函数 1...
  • 统计学最全思维导图

    千次阅读 2020-05-26 20:41:36
    本文用一系列 「思维导图」 由浅入深总结了 「统计学」 领域基础知识,是之前系列文章做一次完整梳理,也是我至今为止所有与统计有关学习笔记。众所周知,「统计学」 是深入理解 「机器学习/数据挖掘」 ...
  • 数据运营思维导图

    2018-04-26 14:24:22
    业务透彻理解是数据分析前提 数据分析是精细化运营,要建立起体系化思维(金字塔思维) 自上而下 目标—维度拆解—数据分析模型—发现问题—优化策略 自下而上 异常数据 影响因素 影响因素与问题数据...
  • 对于R的学习,能加深概率统计的理解,同时可以学习多种多样的图形绘制。R的思维构架很简单,与数学的切合度很好,而且内存占用率低,相比于非开源的工具例如SPSS、SAS等要简单得多。写在前面计算机语言的学习并不...

空空如也

空空如也

1 2 3 4 5 ... 12
收藏数 239
精华内容 95
关键字:

对统计思维的理解