-
去重之后统计条数_一篇教你搞定,数据分析要用的基本统计知识
2021-01-02 08:19:401.1,数据的集中度就是最常见的均值,中位数,众数均值:用所有的数据的和除以数据的条数。在营销的场景中会被定义为“均价”,用来监控顾客在买便宜的还是贵的产品。在互联网场景中,计算每个用户的浏览时长,广告...1:描述数据分析的统计工具
描述数据有两个关键的问题,
第一个中心度——销售额主要集中在哪个区域?
第二个是分散度——销售额有多发散,它的最大最小的点都在哪里?
1.1,数据的集中度
就是最常见的均值,中位数,众数
- 均值:用所有的数据的和除以数据的条数。
在营销的场景中会被定义为“均价”,用来监控顾客在买便宜的还是贵的产品。
在互联网场景中,计算每个用户的浏览时长,广告的平均点击率,微信推送的平均阅读数量。
- 中位数:将数据从小到大排列之后,位于中间位置的的那个数字。,在excel中函数是MED(当均值大于中位数的话,数字不太均衡,会往较大的那边偏斜,两者差的越大,数据越不均衡,)
- 众数;数据中出现最频繁的那个数字。用excel中的函数是(MODE)
但仅仅引用这三个指标是有缺陷的,需要引入数据的离散度进行度量
1.2,数据的离散度;(全距,四分位数,方差和标准差)
- 全距;数据中最大的值和最小值的差。
- 四分位数; 将数据从小到大排序,并将数据均分为四等分的数值,四分位数有三个;处在25%位置上的数值Q1,处在50%位置上的数值Q2,处在75%位置上的数值Q3.(在excel中的函数是QUARTILE)
- 方差;描述的是数据每个数据点和平均值偏离的程度。方差越大波动性越强,数据越离散。(在excel中的函数是var.p)
- 标准差;就是方差的开方结果。引入标准差的的原因在于,标准差更可以和业务贴合。(开平方的在excel中的函数是SQRT,在描述波动范围的时候记得开方后是正负两个值。也可以用标准差函数;STDEV.P,)
描述性统计值也可以直接在excel中点击;数据——数据分析——描述性统计,的步骤就可以得到以上的描述性统计值。
1.3,数据的相关性
数据有很对种类,研究不同数据之间的关系,可以借助散点图进行分析
- 数据之间是正相关的关系,A变量增大时,B 变量也随之增大。
- 负相关的关系,随之A的增大,B变量反而逐渐降低,
- 完全散乱的关系。
作为数据分析人员最关注的问题往往是是否存在因果关系,但有时候相关关系并不代表因果关系,例如冰淇凌销售状况和儿童溺水问题出现的次数。
2:概率与分布
对数据进行描述分析,通过对历史数据大量的重复观察,可以找到他们的某种规律。
概率;简单而言就是关心的事件所发生的次数除以所有发生的事件总数。
2.1二项式分布计算
只有两个结果的事件的预测(例如;扔硬币,性别男女问题)
关注的问题;如果有大量的事件时,最终产生某个特定数量事件的概率是多少?
2.2,正态分布
中将高两头低,左右对称,它是数字变量中最经典的一种概率分布。
它之所以应用广泛是由于两个属性;
1,快速计算数据的概率分布 。
2,在只知道均值和方差的情况下就可以知道数据的全部。任何正态数据都会满足以下规律;
- 均值±1个标准差会覆盖68.2%的数据
- 均值±2个标准差会覆盖95.5%的数据
- 均值±3个标准差会覆盖99.7%的数据
其中的68.2%,95.5%,99.7%也被称为是指置信水平。3个标准差是标准差*3
3:抽样和估计
3.1抽样
当抽样数量逐渐增大时,抽样的平均值可以作为总体平均数的预测。
而目标数据的课程范围可以用置信水平来进行估计。
3.2,假设检验;
假设检验的思路;根据经验或者其他方面的信息来假设一个总体用户可能值,再根据样本情况,使用某种工具来验证这个假设是否正确,
假设检验的主要步骤;
- 设定我们的初始假设;(默认假设=,对应的假设>或<,有2个拒绝默认假设的空间,这种检验也被称为双尾检验。而单尾检验则是;默认假设>=,对应的假设<有1个拒绝默认假设空间。
- 计算检验统计量,根据样本数据计算出Z评分。
- 评估假设所有的临界值,它主要由于假设类型以及显著性水平决定。
显著性水平是对应可能犯错的概率,分为I类错误和II类错误,I类问题判断的是什么样的错误范围可以接受,II类错误是针对抽样问题,显著性水平越高,原假设越容易被否定,显著性水平越低,原假设越难被否定。
显著水平的区间通常为0.01~0.1之间。
4,比较Z评分和临界值,做出决策判断。
4:主要的分析方法
4.1,聚类分析和回归分析之间的联系
聚类分析——我的用户是由哪些群体组成?这些群体之间有哪些明显的特征?
回归分析——未来销售趋势是甚麽样的?我的营销投入如何影响销售?
4.2;聚类分析
聚类分析;将相似的分析对象根据各自的特征分成不同的组别的统计方法,最常见的场景是:客户分群而衍生出的用户画像工作。
客户分群的数据维度;
- 消费行为习惯数据
- 消费者对产品的态度
- 消费者自身的人口统计学特征
- 顾客们消费行为的度量如RFM的数据
基于聚类的客户分群,能帮助我们更清楚的认识自己的客户,我们看到的是更加清晰的客户画像。这将有助于我们回答以下的关键问题
- 如何为不同的客户群体提供定制话的产品和服务?
- 如何设定品牌的主要形象和定位?
- 如何根据客户需求,挖掘新的产品和服务机会?
聚类分析用的是K均值聚类分析方法,它的核心是将所有的观测之间划为K个群体,使得群体和群体之间的距离尽量大,同时,群体内部的观测之间的距离最小。
对用户进行聚类后,应要问以下几个问题:
- 聚类之后的用户分群是否用明显的特征?
- 聚类之后的用户分群是否用足够数量的用户?
- 这些分群是否能够被触达?
做好用户分群必然要依靠充分的用户信息,一方面来自企业内部对于用户的历史购买,对营销响应情况的积累,另一方面来自与第三方的合作,积累有效的信息。
4.3,回归分析
数据中变量的相关关系为我们做预测的基本前提。
回归分析的重点落地场景:各种媒体投放广告对最终销售所产生的效果研究。可以回答的问题有
- 各个媒体是如何相互影响并促进销售的?
- 如何调整媒体组合从而最大化每一份支出收益?
- 如果我们同时进行两个广告营销活动,如何判断其中一个比另一个更有效?
线性回归是一直假设解释变量和因变量之间是线性关系。
但在现实中销售收入不会随着广告的投入而直线上升的。
更有可能的是广告投入到一定数额之后,对实际销售额的影响就会减少,呈现饱和态势。
所以,使用回归模型的结果,最重要的还是观察各个因素系数大大小横向对比他们对目标变量的关系。
-
数据分析 统计基础
2020-08-29 10:00:05统计基础概念和数据分析方法 1.分析数据集中度和分散度的描述性统计 2.通过样本对总体情况作出推断的推断统计 3.聚类,回归分类 ...中位数:将数据从小到大排列之后,处于正中间位置的那个数字 众数:数统计基础概念和数据分析方法(一)
1.分析数据集中度和分散度的描述性统计
2.通过样本对总体情况作出推断的推断统计
描述数据有两个关键的问题
第一个是中心度-销售额的集中在哪个区域
第二个是分散度-销售额有多发散,它最大和最小的点在哪里
一.对数据进行描述分析
a.数据的集中度(均值,中位数,众数)
均值:也称平均数,是最常用的衡量集中度的指标
均值误区:极大值或者极小值引起平均值的偏差
中位数:将数据从小到大排列之后,处于正中间位置的那个数字
众数:数据中出现最频繁的那个数字
b.数据的离散度(全距,四分位数,方差和标准差)
全距:数据中最大值和最小值的差,是简单实用的指标
用来说明数据中变大的范围
局限性也非常明显,只用最大值和最小值,这种衡量只能提供较为粗略的信息
四分位数:将数据从小到大排序,均分为四等分。处在25%位置上的数值(Q1),处在50%位置上的中位数(Q2),处在75%位置上的数值(Q3)
方差:更全面的反应数据的离散程度,描述的是数据中每个数据点和平均值偏离的距离
标准差也是衡量数据分散度的一个衡量指标
c.数据的相关性
- 使用散点图
- 用公式计算数据之前的相关系数,相关系数的取值是在-1和1之间
- 越接近1的值:正相关关系越强
- 越接近-1,负相关关系越强
- 越接近0,相关关系越弱
使用散点图和相关系数可以帮助我们排除那些无关的变量
二.对历史数据大量的重复观察,可以发现某种规律-即概率以及概率分布
a.数据类型
1.类别性数据,如:性别,男女
2.数字型数据,如:收入的衡量
b.具体例子
1.分类型数据看概率具体应用
如:访问商业详情页的概率=a/b,a=所有访问商品详情页的用户数,b=所有浏览过商品的用户数
应用:只有两个结果的事件的预测
关注点:如果有很大量的事件时,最终产生某个特定数量事件的概率是多少?
如:app每天推送给50万用户消息,假设每个用户都有60%的概率点击这个推送消息,最终获得35万用户点击这个消息的可能性是多少?
2.数字型变量的概率和分布
正态分布
对数据分析人员最重要的两个属性
1)快速计算数据的概率分布
如:顾客的满意度打分,均值为75,标准差为6,求打分<=80的概率
使用Z评分 Z=(目标数-平均数)/标准差;即Z=(80-75)/6=0.83,然后查询Z评分表,得到概率值
2)在只知道均值和方差的情况下可以知道数据的全部
- 均值+-1个标准差会覆盖68.2%的数据
- 均值+-2个标准差会覆盖95.5%的数据
- 均值+-3个标准差会覆盖99.7%的数据
概率分布为后续的假设验证和数据分析提供了基础,在回归或者分类分析中,很多都对所预测目标或者是误差等做出了特定的分布假设
-
大话数据结构(中文高清版)
2017-04-19 11:57:092.5 算法的特性 21 2.5.1 输入输出 21 2.5.2 有穷性 21 2.5.3 确定性 21 2.5.4 可行性 21 2.6 算法设计的要求 22 求100个人的高考成绩平均分与求全省所有考生的成绩平均分在占用时间和内存存储上有非常大的差异,... -
练习P20入门版答案
2018-04-20 10:51:04一个三位数,各位数字互不相同,十位数字比个位、百位数字之和还要大,且十位、百位数字之和不是质数。编程找出所有符合条件的三位数。 注:1. 不能手算后直接打印结果。 2. “质数”即“素数”,是指除1和自身... -
STT2860Group6Project1-源码
2021-02-14 23:35:00STT2860Group6Project1 项目目标:使用R导入数据并回答以下问题。 每个问题应具有支持性的R代码和答案输出... (f)每个州的华盛顿总理集团财产的中位数是多少? 针对每种状态分别计算此度量。 (g)创建一个小标题, -
2019数据运营思维导图
2019-03-29 21:34:09是不是某些渠道的量出现问题 用户行为 功能使用及参与度 页面访问路径 衍生指标 人均浏览页面数和时长、启动次数、收藏、点赞、关注、评论等 最好形成漏斗模型,规划合理访问路径 关键路径上面各个页面的浏览量 页面... -
数据运营思维导图
2018-04-26 14:24:22人均浏览页面数和时长、启动次数、收藏、点赞、关注、评论等 最好形成漏斗模型,规划合理访问路径 关键路径上面各个页面的浏览量 页面转化&用户进入后一步步的转化情况 是否可以简化流程,减少用户操作步骤 ... -
Visual C++开发实战1200例(第1卷).(清华出版.刘锐宁.梁水.李伟明).part1
2016-06-16 01:35:39实例117 求数组中元素的平均和 实例118 数组的排序 实例119 向数组中插入元素 实例120 数组的删除操作 实例121 数组冒泡排序法 实例122 顺序查找数组中指定的元素 实例123 有序数组折半查找 实例124 计算... -
Visual C++开发实战1200例(第1卷).(清华出版.刘锐宁.梁水.李伟明).part2
2016-06-16 01:38:19实例117 求数组中元素的平均和 实例118 数组的排序 实例119 向数组中插入元素 实例120 数组的删除操作 实例121 数组冒泡排序法 实例122 顺序查找数组中指定的元素 实例123 有序数组折半查找 实例124 计算... -
C#开发实战1200例(第1卷).(清华出版.王小科.王军.扫描版).part1
2016-06-16 20:55:43实例050 设置货币值中使用的小数位数 实例051 格式化输入数据为货币格式 实例052 开发一个进制转换器 3.4 日期时间格式的数据处理 实例053 动态获得系统当前日期和时间 实例054 手动设置系统日期时间 实例055... -
C#开发实战1200例(第1卷).(清华出版.王小科.王军.扫描版).part2
2016-06-16 20:59:52实例050 设置货币值中使用的小数位数 实例051 格式化输入数据为货币格式 实例052 开发一个进制转换器 3.4 日期时间格式的数据处理 实例053 动态获得系统当前日期和时间 实例054 手动设置系统日期时间 实例055... -
C#开发实战1200例(第1卷).(清华出版.王小科.王军.扫描版).part3
2016-06-16 21:02:21实例050 设置货币值中使用的小数位数 实例051 格式化输入数据为货币格式 实例052 开发一个进制转换器 3.4 日期时间格式的数据处理 实例053 动态获得系统当前日期和时间 实例054 手动设置系统日期时间 实例055... -
Excel新增工具集
2011-12-20 09:30:27合并结果为:总表记录行数为各工作表的记录行数之和,表头列数为各工作表列数之和,并在A列多出一个标志列,标记本条记录来源于哪个工作表。 5、多表(单表)同类数据合并与求和:其效果是:(a)标识列重名的合成一... -
C#开发实战1200例(第一卷+第二卷)+源码下载地址.txt
2019-05-17 09:24:24主要内容有C#开发环境的使用、C#语言基础应用、字符串处理技术、数组和集合的使用、面向对象编程技术、数据结构与算法、Windows窗体基础、特色窗体界面、窗体控制技术、MDI窗体和继承窗体、Windows常用控件的使用、... -
阿里研究院《2020中国消费品牌发展报告》
2020-05-14 18:06:54数据显示,2019年中国财富500强榜单中,大制造和大消费类的上榜公司数量超过180家,其中超过半数的企业实现了双位数的收入增长,行业整体增长节奏稳健。国际品牌曾经是舒适、现代化、中产生活方式的标志,而中国品牌... -
C#开发实例大全(基础卷).软件开发技术联盟(带详细书签) PDF 下载
2018-02-20 01:26:55实例029 判断指定月份属于哪个季节 36 实例030 使用switch语句更改窗体颜色 37 实例031 循环向控制台中输入内容 38 实例032 递归算法的经典面试题 39 实例033 制作一个数字猜猜看小游戏 40 实例034 使用goto语句在... -
PHP开发实战1200例(第1卷).(清华出版.潘凯华.刘中华).part1
2016-06-14 01:25:19书中实例来源于多位工程师的多年积累,具有很强的实用性。 本书是第I卷,以开发人员在项目开发中经常遇到的问题和必须掌握的技术为中心,介绍了应用PHP进行Web开发的各个方面的知识和技巧,主要包括开发环境、PHP... -
PHP开发实战1200例(第1卷).(清华出版.潘凯华.刘中华).part2
2016-06-14 01:27:23书中实例来源于多位工程师的多年积累,具有很强的实用性。 本书是第I卷,以开发人员在项目开发中经常遇到的问题和必须掌握的技术为中心,介绍了应用PHP进行Web开发的各个方面的知识和技巧,主要包括开发环境、PHP... -
Oracle SQL高级编程(资深Oracle专家力作,OakTable团队推荐)--详细书签版
2013-02-04 12:43:52同时是一位演讲家及Oracle ACE。 JARED STILL 从1994年就开始使用Oracle。他认为对于SQL的学习是永无止境的,相信每一个查询Oracle数据库的人都需要精通SQL语言,才能写出高效的查询。他参与本书的编写就是为了... -
Oracle SQL高级编程(资深Oracle专家力作,OakTable团队推荐)--随书源代码
2013-02-04 12:49:33同时是一位演讲家及Oracle ACE。 JARED STILL 从1994年就开始使用Oracle。他认为对于SQL的学习是永无止境的,相信每一个查询Oracle数据库的人都需要精通SQL语言,才能写出高效的查询。他参与本书的编写就是为了... -
计算机系统结构试题题目答案一应俱全
2011-06-22 13:20:32在尾数下溢处理方法中,平均误差最大的是( A.舍入法 B.截断法 C.恒置“1”法 ) D.ROM 查表法 9.字串位并是指同时对一个字的所有位进行处理,其并行等级( ) A.不存在并行性 B.较高的并行性 C.最高一级的并行性 D.... -
《数据结构 1800题》
2012-12-27 16:52:036.数据结构中评价算法的两个重要指标是(时间复杂度和空间复杂度) 【北京理工大学 2001 七、1(2分)】 7. 数据结构是研讨数据的_(1)物理结构_和_(2)逻辑结构 _,以及它们之间的相互关系,并对与这种结构定义... -
《计算机操作系统》期末复习指导
2009-12-30 10:57:55(1)进程调度属于低级处理机管理,即确定系统中哪个进程将获得CPU;而作业调度属于高级处理机管理,即确定系统中哪些作业将获得CPU。 (2)进程是一个具有一定独立功能的程序关于某个数据集合的一次运行... -
MAPGIS地质制图工具
2013-05-06 16:15:301、 执行菜单“1辅助工具\导入导出功能\ MapGis<-> Excel\Excel->MapGis”,然后鼠标左键点击会把当前Excel中选中的线和数据转到MapGis里面;如果未先打开Excel会弹出对话框选择插入的Excel文件,该文件有多个表时... -
oracle学习文档 笔记 全面 深刻 详细 通俗易懂 doc word格式 清晰 连接字符串
2017-05-06 20:26:52n(-84~127) 可以存储正数、负数、零、定点数和精度为38位的浮点数,其中,M表示精度,代表数字的总位数;N表示小数点右边数字的位数 日期类型 date 7字节 用于存储表中的日期和时间数据,取值范围是公元前4712年1月... -
大话数据结构
2019-01-10 16:35:22求100个人的高考成绩平均分与求全省所有考生的成绩平均分在占用时间和内存存储上有非常大的差异,我们自然追求高效率和低存储的算法来解决问题。 2.6.1正确性 22 2.6.2可读性 23 2.6.3健壮性 23 2.6.4时间效率高和... -
大话数据结构 程杰
2018-09-01 10:06:43求100个人的高考成绩平均分与求全省所有考生的成绩平均分在占用时间和内存存储上有非常大的差异,我们自然追求高效率和低存储的算法来解决问题。 2.6.1正确性 22 2.6.2可读性 23 2.6.3健壮性 23 2.6.4时间效率高和... -
大话数据结构-程杰
2014-07-13 23:45:52求100个人的高考成绩平均分与求全省所有考生的成绩平均分在占用时间和内存存储上有非常大的差异,我们自然追求高效率和低存储的算法来解决问题。 2.6.1 正确性 22 2.6.2 可读性 23 2.6.3 健壮性 23 2.6.4 时间... -
《大话数据结构》( 程杰 编著)
2018-02-15 10:00:21求100个人的高考成绩平均分与求全省所有考生的成绩平均分在占用时间和内存存储上有非常大的差异,我们自然追求高效率和低存储的算法来解决问题。 2.6.1正确性 22 2.6.2可读性 23 2.6.3健壮性 23 2.6.4时间效率高和... -
大话数据结构三个版本
2018-09-10 09:39:38求100个人的高考成绩平均分与求全省所有考生的成绩平均分在占用时间和内存存储上有非常大的差异,我们自然追求高效率和低存储的算法来解决问题。 2.6.1正确性 22 2.6.2可读性 23 2.6.3健壮性 23 2.6.4时间效率高和...
-
只需要会Oracle,就是全栈开发工程师了?!
-
zxf QT学习
-
app软件测试全栈系列精品课程
-
注解与反射
-
【图像识别】基于模板匹配之人脸表情识别matlab源码含GUI
-
基于电商业务的全链路数据中台落地方案(全渠道、全环节、全流程)
-
面试题:两个线程打印 ,一个线程打印1-52,另一个打印字母A-Z打印顺序为12A34B...5152Z,要求用线程间通信
-
PAT甲级-散列类型-1041 Be Unique解题思路
-
Selenium使用方法
-
西南科技大学《微机原理与接口技术》4套历年期末考试试卷(含答案).pdf
-
6、数据分析matplotlib
-
MySQL 索引
-
中山大学《酒店管理》期末考试试卷.pdf
-
MaxScale 实现 MySQL 读写分离与负载均衡
-
awk指令常用内容
-
InPixio Photo Maximizer Pro(图片无损放大器软件)直装特别版V5.11.7612.27781
-
要把众家之长的优化元素加入自己的站,才能更好突出主题
-
Mac键盘符号和修饰键说明
-
C51单片机学习日记:数码管
-
1-算法leetcode 876 快慢指针