精华内容
下载资源
问答
  • 如何线性回归模型做数据分析

    千次阅读 2020-11-26 08:40:00
    小洛写在前面:很多同学目前所的业务分析工作,徒手分析即可cover业务需求,较少用到一些高阶的统计模型和机器学习上面的东西。渐渐的便会产生一种感觉,即数据分析满足业务需求即可,不需要会...

    小洛写在前面:

    很多同学目前所做的业务分析工作,徒手分析即可cover业务需求,较少用到一些高阶的统计模型和机器学习上面的东西。渐渐的便会产生一种感觉,即数据分析满足业务需求即可,不需要会机器学习。

    但我认为

     1、目前的工作不需要,不代表之后的工作不需要,我们应该着眼于我们整个数据分析生涯 ;

    2、掌握一些模型可以高效做一些定量分析,较徒手分析效率更高,更准 ;

    3、我们觉得一些东西没用,很可能是因为我们还没有发现如何去用 ;

    4、我们对自己的要求不应该止于满足业务需求,一些探索性专题非常依赖于机器学习 ;

    基于以上,我尝试开始更新一些机器学习方面的文章,从较基础的线性回归、决策树等开始,希望大家可以跟着小洛一起学习,有疑问大家可以随时在交流群提~


    一、什么是线性回归

    线性回归是利用线性的方法,模拟因变量与一个或多个自变量之间的关系。对于模型而言,自变量是输入值,因变量是模型基于自变量的输出值,适用于x和y满足线性关系的数据类型的应用场景。

    线性回归应用于数据分析的场景主要有两种:

    • 驱动力分析:某个因变量指标受多个因素所影响,分析不同因素对因变量驱动力的强弱(驱动力指相关性,不是因果性);

    • 预测:自变量与因变量呈线性关系的预测;

    模型数学形式:????=????0+????1????1+????2????2+⋯+????????????????

     

    例如要衡量不同的用户特征对满意分数的影响程度,转换成线性模型的结果可能就是:分数=-2.1+0.56*年龄

     

    线性回归模型分为一元线性回归与多元线性回归:区别在于自变量的个数

    二、线性系数的计算-最小二乘法

    我们知道了模型的公式,那么模型的系数是如何得来呢?我们用最小二乘法来确定模型的系数。最小二乘法,它通过最小化误差的平方和寻找数据的最佳函数匹配,利用最小二乘法可以求得一条直线,并且使得拟合数据与实际数据之间误差的平方和为最小

     

    将上述模型公式简化成一个四个点的线性回归模型来具体看:分数=-2.1+0.56*年龄

    最小二乘法选取能使模型 误差平方和=  ????1????+ ????2????+ ????3????+ ????4????最小化的直线,生成直线后即可得出模型自变量的系数和截距。

    三、决定系数R方(R-squared)与调整R方

    R方(适用一元线性回归)

    R方也叫决定系数,它的主要作用是衡量数据中的因变量有多准确可以被某一模型所计算解释。公式:

    离差平方和:代表因变量的波动,即因变量实际值与其平均值之间的差值平方和

    误差平方和:代表因变量实际值与模型拟合值之间的误差大小

    故R方可以解释因变量波动中,被模型拟合的百分比,即R方可以衡量模型拟合数据的好坏程度;R方的取值范围<=1,R方越大,模型对数据的拟合程度越好;

     

    使用不同模型拟合自变量与因变量之间关系的R方举例,

    R方=1 模型完美的拟合数据(100%)

    R方=0.91 模型在一定程度较好的拟合数据(91%)

    R方<0 拟合直线的趋势与真实因变量相反

    调整R方(适用多元线性回归)

    一般的R方会存在一些问题,即把任意新的自变量加入到线性模型中,都可能会提升R方的值,模型会因加入无价值的变量导致R方提升,对最终结果产生误导。

     

    故在建立多元线性回归模型时,我们把R方稍稍做一些调整,引进数据量、自变量个数这两个条件,辅助调整R方的取值,我们把它叫调整R方,调整R方值会因为自变量个数的增加而降低(惩罚),会因为新自变量带来的有价值信息而增加(奖励);可以帮助我们筛选出更多有价值的新自变量。

    n:数据量大小(行数)->数据量越大,新自变量加入所影响越小;

    p:自变量个数->自变量个数增加,调整R方变小,对这个量进行惩罚;

    一句话,调整R方不会因为模型新增无价值变量而提升,而R方会因为模型新增无价值变量而提升!通过观测调整R方可以在后续建模中去重多重共线性的干扰,帮助我们选择最优自变量组合。

    R方/调整R方值区间经验判断

    • <0.3->非常弱的模型拟合

    • 0.3-0.5->弱的模型拟合

    • 0.5-0.7->适度的模型拟合

    • >0.7->较好的模型拟合

    四、线性回归在数据分析中的实战流程

    我们以共享单车服务满意分数据为案例进行模型实战,想要去分析不同的特征对满意分的影响程度,模型过程如下:

    1、读取数据

    2、切分因变量和自变量、分类变量转换哑变量

    3、使用VIF去除多重共线性

    多重共线性:就是在线性回归模型中,存在一对以上强相关变量,多重共线性的存在,会误导强相关变量的系数值。

    强相关变量:如果两个变量互为强相关变量,当一个变量变化时,与之相应的另一个变量增大/减少的可能性非常大。

     

    当我们加入一个年龄强相关的自变量车龄时,通过最小二乘法所计算得到的各变量系数如下,多重共线性影响了自变量车龄、年龄的线性系数

    这时候,可以使用VIF消除多重共线性:VIF=1/(1-R方),R方是拿其他自变量去线性拟合此数值变量y得到的线性回归模型的决定系数。某个自变量造成强多重共线性判断标准通常是:VIF>10

    我们发现,年龄的VIF远大于10,故去除年龄这一变量,去除后重新计算剩余变量VIF发现所有均<10,即可继续。

    4、计算调整R方

    5、数据标准化

    我们希望不同自变量的线性系数,相互之间有可比性,不受它们取值范围影响

    6、拟合模型,计算回归系数

    共享单车分数案例,因变量是分数,自变量是年龄、组别、城区,线性回归的结果为:分数 = 5.5 + 2.7 * 年龄 +0.48 * 对照组 + 0.04 * 朝阳区 + 0.64 * 海淀区 + 0.19 * 西城区

    7、生成分析洞见-驱动力因素  

    最终产出不同用户特征对用户调研分数的驱动性排名。驱动力分数反应各个变量代表因素,对目标变量分数的驱动力强弱,驱动力分数绝对值越大,目标变量对因素的影响力越大,反之越小,驱动力分数为负时,表明此因素对目标变量的影响为负向。

     

    8、根据回归模型进行预测

    至此,回归模型已经建好,预测就不写了,把要预测的数据x自变量导入模型即可预测y。


    相信大家读完这篇文章,对线性回归模型已经有了一些了解,大家快快动起手来把模型应用到自己的实际工作中吧!文中python代码及练习数据集我会发在交流群中,没有加入小洛数据分析群的朋友可以添加小洛微信号加入交流群~

    感谢大家的阅读,关注小洛的公众号,一起交流数据分析话题~ 

    展开全文
  • 想要数据分析更快?超良心的笔记本/台式电脑配置推荐! Hello, 这里是行上行下,我是喵君姐姐~ 作为一个科研民工,顺手的工具能让自己的搬砖过程顺利许多。本期我们邀请到了梦马来为大家推荐一些有利于科研的...

    想要数据分析更快?超良心的笔记本/台式电脑配置推荐!

    在这里插入图片描述
    在这里插入图片描述
    Hello,
    这里是行上行下,我是喵君姐姐~

    作为一个科研民工,顺手的工具能让自己的搬砖过程顺利许多。本期我们邀请到了梦马来为大家推荐一些有利于科研的笔记本(台式机)配置。

    PS: 如若内容读起来有点困难,可直接划到下方图片,查看具体型号推荐哦~

    关于电脑配置的选择,首先得从需求出发 ,在满足自身需求的前提下可以根据预算进行选择。我们日常科研学习中经常使用到的软件主要有E-Prime和Matlab。

    其中的E-Prime对硬件的需求不是那么高,主流的电脑都带的起,但是如果要有较好的体验有一点还是需要满足,即有独显且能只使用独显输出,特别是一些需要做较高时间精度控制的实验。

    需要做较精确控制的实验(时间精确控制,颜色精确控制等)还需要配备一块较好的显示屏(高色域和高刷新率)。

    Matlab对电脑硬件的要求较高,特别是需要进行fMRI数据分析时。首先查阅官网的推荐配置,CPU要4核及以上,支持AVX 2.0指令集(INTEL2酷睿2代以上,AMD的Ryzen 系列或者ZEN1/ZEN+/ZEN2架构)。

    matlab的实际性能取决于FPU,通常FPU个数与CPU核心数相同,故具有更多核心的CPU的计算机比拥有较少核心的CPU的计算机更具优势,同系列CPU则主频越高性能越好。

    显卡推荐英伟达(NVIDIA)的显卡,目前MATLAB并不支持使用AMD或Intel GPU进行计算加速,若使用MATLAB的并行运算工具箱加速运算,需选用CUDA算力3.0或更高的NVIDIA显卡(即GeForce GTX 650/GTX730M及以上的显卡),推荐GTX1050及以上型号。

    最新的显卡CUDA算力如下图所示。

    在这里插入图片描述
    在这里插入图片描述
    内存推荐16GB,当然如果预算够,可以按cpu核心数*4GB配置。最好的是三星B-die(最能超、延迟也最低),其次是海力士CJR或镁光c9bjz(能超但延迟较三星B-die高),其他谨慎选择。频率越高越好,建议3200及以上。

    硬盘一定要固态,首选nvme协议,pcie3.0x4及以上,256GB以上,原厂颗粒的。质量最好买好点的,毕竟数据无价。如果预算不足,只能买差一点的固态,一定要记得经常将数据进行备份!!

    机械盘要选非叠瓦盘(即垂直式CMR和PMR),分辨叠瓦和垂直,缓存在256M及以上的基本都是叠瓦盘,转速推荐7200rpm,推荐东芝P300。

    在这里插入图片描述
    笔记本具体型号推荐:

    首推联想拯救者R7000,综合性价比高,用料良心。其次暗影精灵6,游戏本的定位,性能强劲。这两款都可以屏蔽集显单独使用独显输出,但是目前都没货,可能需要等一等,如果急着用可以选购下面这两款。

    接下来推荐光影精灵6pro,性价比非常高,定位为全能本,因此在性能上较为保守;最后推荐华硕天选,性价比还可以,但是在用料上没有那么的良心。

    需要注意的是光影精灵6和华硕天选都不能屏蔽集显输出。价格仅供参考,各平台优惠活动不同,可能会有一些浮动。

    Tips:

    matlab2019b及以前版本对amd的cpu存在的负优化现象:如果MATLAB R2019b及以前版本在AMD 平台上运行时,无论CPU支持与否,其都不会使用SSE3-SSE4或AVX指令集,而是直接调用SSE1指令集进行运算,这会显著拖慢matlab计算速度。

    对于旧版matlab负优化问题,可以通过设置环境变量来提升matlab在AMD平台上的整体运算性能。

    有以下两种方法:

    首先在matlab输入bench命令查看当前性能;

    1.仅对matla进行设置;(将下边代码中的matlab.exe改为与你的matlab执行文件相同名称后将其另存为.bat文件,并放到matlab启动文件所在目录,执行该文件即可使该代码生效);

    set MKL_DEBUG_CPU_TYPE=5 matlab.exe
    

    2.设置全局环境变量(对系统设置,影响范围较广),右键我的电脑→属性→高级系统设置→环境变量→找到MKL_DEBUG_CPU_TYPE(没有则新建)→将值设置为5;

    再次输入bench命令查看当前性能是否有提升。

    参考资料

    PS:在本文首发微信公众号 行上行下 的后台回复关键词“电脑选购”即可获得所述的Word文档啦!

    在这里插入图片描述

    展开全文
  • 数据分析京东笔记本电脑

    千次阅读 2017-05-13 16:12:15
    数据来源使用八爪鱼采集器采集京东商城中笔记本的数据,共采集12030条,去除重复、无用数据后剩余5968条,本文主要分析标题、品牌、价格、评价数量。


    注:数据来源使用八爪鱼采集器采集京东商城中笔记本的数据,共采集12030条,去除重复、无用数据后剩余5968条,本文主要分析标题、品牌、价格、评价数量。文末有源数据地址,小鑫欢迎各位朋友一起交流(E-mail:rockyxin@rockyxin.com)


    第一个问题:哪个品牌的笔记本数量最多?

    电子产品的品牌向来众多,国内的、国外的、有名的、山寨的……

    科技飞速发展的现代,老牌笔记本厂商是否能稳坐江山?新秀们的实力又怎么样呢?

    一张图解密笔记本品牌的格局。

    1. 品牌数量前20

    可以看出,戴尔以微弱优势拿得头筹,但这个头筹拿得可不稳。联想单枪匹马紧随其后,算上ThinkPad,可以说实力碾压戴尔及其他一众厂商。不得不说,联想在数量上还是具有统治地位的。

    处在第二梯队的是华硕、惠普、宏碁等大厂商,毕竟深耕这块土地多年,口碑不错,支持者众多。

    紧接着是三星和苹果两家顶级大公司,当然,笔记本只是他们的一个产品,我们更为熟悉的还是他们的手机产品。

    前十名的最后两位都是国产品牌,简单搜索了一下这个新晋新秀-麦本本,2013年创立的品牌,曾是淘宝单品销量第一的笔记本品牌。

    自从去年小米发布笔记本,到现在为止都没有怎么关注,现在突然看到,前十名的榜单上有小米,颇为诧异,粉丝经济的力量还是不容小觑的。

    后面的几个品牌,只有神舟、清华同方、机械革命有听说过,其他的几个品牌都比较低调。需要注意的是,那个牌子真的是彗星人,不是外星人。在小鑫采集的数据中,只有7条是外星人的,因此没上榜。

    上面这份榜单仅仅根据品牌的数量来排名的。

    除了数量之外,最值得关注的当然是价格。


    第二个问题,哪个品牌的笔记本最贵?

    在采集的数据中,很多价格标签的写法是这样的:3000-3400元,公(jian)平(dan)起(cu)见(bao),直接采用平均价3200元。这样处理,或多或少都会存在一点偏差,但本文主要的目的在于参考,各位看官切勿认真。

    2. 平均价格前20

    这里,对于源数据进行了一些筛选,对于那些数量特别少的数据,求平均数显得不太公平,因此,数量小于10的,比如微星8个,外星人7个。

    因此,价格高的外星人榜上无名。

    可以看得出来,过万的品牌只有苹果一个,其次就是6000-10000,一共有三个品牌。

    最多的区间还是3900-5000多,一共有九个,大部分的大厂商也多在这个区间。


    第三个问题,哪些品牌卖的最好?

    不管数量多少,也不管价格高低,卖得好,才是硬道理,用户喜欢才是最重要的。

    所以,接下来,就看看哪些品牌卖的最好。

    在某种程度上,实际卖出的数量应该是略大于评价数量的。

    因此,在这里,将评价数等价于销量,各位看官,看个大概就行。

    3. 销量前20

    联想在市场的占有率确实是个大头,上面可以看出,联想的平均价格在4676,一个很中规中矩的段位。

    其次的第二梯队,华硕和戴尔两个巨头,相差无几。

    第三梯队的也是非常有名的品牌,惠普、ThinkPad、苹果。

    前十名中,除了机械革命,其他的都是大牌的厂商,在笔记本这一块做的时间久,市场渗透高。

    好奇的小鑫,搜索了一下机械革命,专门做游戏笔记本,2014年成立的年轻品牌,才仅仅3年,就可以挤进厂商云集的前十,不简单啊。

    分析到这里,似乎就没啥可以说的了,小鑫突然想看一下,价格的高低是否会影响到销量?


    第四个问题,价格与销量,什么关系?

    在看数据之前呢,小鑫就猜测,价格与销量的分布情况,应该呈现一种正态分布的样子。

    那么,具体是怎样的呢?咱们来看一看。

    4. 价格与销量

    这是所有品牌一起的汇总数据,因此,可能会存在受一些品牌的影响。

    而且,这个图表,为了容纳更多数据点,纵横坐标颠倒了位置。

    下面,咱们将横坐标设置为价格,并且选取“联想”这一种品牌的所有数据,来进行观察。毕竟联想的销量最大。

    5. 联想:价格与销量

    可见,并不是完美的正态分布,但是在3000-8000的区间内,大致满足。在某个价格区间内,销量很高,然后越往两边分散,销量更低。明显可以看出,价格升高对销量的影响,比价格降低的影响多大。在7000左右出现销量最高点,然后就出现断崖式的降落。


    最后

    这篇文章仅仅是小鑫发现之前收集的数据中,有这么一个数据,然后就拿出来看看,因为数据的维度较少,所以得出的结论也不是很多,各位看官做个参考就行,买笔记本这事,还是得看个人。单纯凭借一两个因素去决定,肯定不是个明智的选择。

    最后,希望跟各位朋友交流学习。E-mail:rockyxin@rockyxin.com

    【END】


    原始数据地址: http://pan.baidu.com/s/1qYToRjm

    密码: 5i99

    展开全文
  • 最近,在知乎上看到一个问题:“数据分析师需要注重哪方面的计算机技能培养?” 问题的背景是这样的: 某211高校通信专业出身,毕业后在运营商工作了7年多,先后从事通信网络运维、规划工作,近两年负责运营商...

    最近,在知乎上看到一个问题:“数据分析师需要注重哪方面的计算机技能培养?”

    问题的背景是这样的:

    某211高校通信专业出身,毕业后在运营商工作了7年多,先后从事通信网络运维、规划工作,近两年负责运营商数据分析(网络部门,偏向业务分析)。

    由于职业发展瓶颈,从去年11月计划跳槽,花了半年时间学习统计学基础、SQL、Python等。

    近期跳槽到互联网产品部门,从事互联网产品(APP)的数据分析师,支撑产品部门的数据分析(偏向业务分析,不负责数据仓库、ETL等偏向IT工作)。工作内容差异较大,包括分析的颗粒度、工作方式(例如自己写shell脚本跑数)、工作内容,因此紧急提升linux(shell编程)、SQL等技能,且加快对业务的熟悉,但仍感觉亚历山大。

    个人想继续往数据分析方向发展,也深知数据分析包括计算机科学、统计学、业务等三个部分内容,目前比较欠缺的应该是计算机科学,请问对于想往数据分析师(数据科学)方向发展,计算机科学方面的技能能否给些提升建议?

    今天也是想借这个问题,系统回答下“数据分析师”的职业发展,也是最近在思考的。

    根据我近10年的工作经验,包括在甲方IT部任职BI项目经理和运营部任职业务分析经理,乙方Data Analytics项目(EDW/BI/Big Data/AI Machine Learning)咨询和项目实施经验,按照由易到难的进阶步骤,我觉得应该掌握这些技能:

    基础篇

    1、首先是Excel,貌似这个很简单,其实未必。Excel不仅能够做简单二维表、复杂嵌套表,能画折线图/Column chart/Bar chart/Area chart/饼图/雷达图/Combo char/散点图/Win Loss图等,而且能实现更高级的功能,包括透视表(类似于BI的多维分析模型Cube),以及Vlookup等复杂函数,处理100万条以内的数据没有大问题。最后,很多更高级的工具都有Excel插件,例如一些AI Machine Learning的开发工具。

    数据分析师需要掌握哪方面的计算机技能?

     

    2、掌握SQL Server或者Oracle的SQL语句,虽然你是业务分析师,但如果取数据能少依赖于IT人员和IT工具(比如BI的多维分析模型,有时候并不能获取你想要的数据),对于做业务分析,无疑是如虎添翼,我曾经见过华为的会计能写七层嵌套的SQL语句,很吃惊。包括join, group by, order by, distinct, sum, count, average, 各种统计函数等。

    3、掌握可视化工具,比如BI,如Cognos/Tableau/FineBI等,具体看企业用什么工具,像我之前用的是FineBI。这些工具做可视化非常方便,特别是分析报告能含这些图,一定会吸引高层领导的眼球,一目了然了解,洞察业务的本质。另外,作为专业的分析师,用多维分析模型Cube能够方便地自定义报表,效率大大提升。

    数据分析师需要掌握哪方面的计算机技能?

    总结:至此,掌握以上技能的80%,可以算是一个合格的分析师了。这个阶段的数据分析师,需要既懂得如何利用工具处理数据,也要懂得业务场景,能分析解决基本的问题。这里还是要强调一点,数据分析师最重要的是熟悉业务,最好是懂。懂业务,分析逻辑就会清晰一般,而且也能排除大部分无用的尝试。长期以往对于了解的业务,比对一下数据就知道问题出在哪里了。

    之后,如果是要深钻技术,甚至往数据科学家方向上发展。

    进阶篇

    1、系统的学好统计学

    纯粹的机器学习讲究算法预测能力和实现,但是统计一直就强调“可解释性”。比如说,针对今天微博股票发行就上升20%,你把你的两个预测股票上涨还是下跌的model套在新浪的例子上,然后给你的上司看。统计学就是这样的作用。

    数据挖掘相关的统计方法(多元Logistic回归分析、非线性回归分析、判别分析等)

    定量方法(时间轴分析、概率模型、优化)

    决策分析(多目的决策分析、决策树、影响图、敏感性分析)

    树立竞争优势的分析(通过项目和成功案例学习基本的分析理念)

    数据库入门(数据模型、数据库设计)

    预测分析(时间轴分析、主成分分析、非参数回归、统计流程控制)

    数据管理(ETL(Extract、Transform、Load)、数据治理、管理责任、元数据)

    优化与启发(整数计划法、非线性计划法、局部探索法、超启发(模拟退火、遗传算法))

    大数据分析(非结构化数据概念的学习、MapReduce技术、大数据分析方法)

    数据挖掘(聚类(k-means法、分割法)、关联性规则、因子分析、存活时间分析)

    其他,以下任选两门(社交网络、文本分析、Web分析、财务分析、服务业中的分析、能源、健康医疗、供应链管理、综合营销沟通中的概率模型)

    风险分析与运营分析的计算机模拟

    软件层面的分析学(组织层面的分析课题、IT与业务用户、变革管理、数据课题、结果的展现与传达方法)

    2、掌握AI Machine Learning算法,会用工具(比如Python/R)进行建模。

    传统的BI分析能回答过去发生了什么?现在正在发生什么?但对于未来会发生什么?必须靠算法。虽然像Tableau、FineBI等自助式BI已经内置了一部分分析模型,但是分析师想要更全面更深度的探索,需要像Python/R的数据挖掘工具。另外大数据之间隐藏的关系,靠传统工具人工分析是不可能做到的,这时候交由算法去实现,无疑会有更多的惊喜。

    其中,面向统计分析的开源编程语言及其运行环境“R”备受瞩目。R的强项不仅在于其包含了丰富的统计分析库,而且具备将结果进行可视化的高品质图表生成功能,并可以通过简单的命令来运行。此外,它还具备称为CRAN(The Comprehensive R Archive Network)的包扩展机制,通过导入扩展包就可以使用标准状态下所不支持的函数和数据集。R语言虽然功能强大,但是学习曲线较为陡峭,个人建议从python入手,拥有丰富的statistical libraries,NumPy ,SciPy.org ,Python Data Analysis Library,matplotlib: python plotting。

    数据分析师需要掌握哪方面的计算机技能?

    最后,怎么说呢,无论何时业务分析、数据分析还是数据科学教,他的价值体现还是在于商业价值。数据人才到最后的发展也一定是要往企业运营VP、战略参谋者身居。比如,数据战略家可以使用IT知识和经验来制定商业决策,数据科学家可以结合对专业知识的深入理解使用IT技术开发复杂的模型和算法,分析顾问可以结合实际的业务知识与分析经验聚焦下一个行业爆点。

    所以需要你具备沟通、组织、管理能力和商业思维,这就不只局限于某个岗位了,需要你站在更高位的角度思考,为企业谋福利。同时也要思考,拿着“数据分析”这张牌,如何在公司发挥价值,用数据驱动企业运营,这是要思考的。

    课程推荐

    如果想快速对数据分析建立认知,找到一个学习方向,推荐秦路老师的《7周入门数据分析》。

    如果是在想要从事或已经从事数据工作的,比如“表哥表姐”,需要类似一个大牛在帮扶着教你的,这里重点安利一个叫《决策菁英》的培训课程。

    这个课程算是我见过比较齐全比较接地气的了。从行业背景、个人定位、工具技术学习、业务需求配合、职业发展,在企业放大数据分析的影响力等等,都有很详细的解答。

    尤其是成为数据分析师之后,可能会面临的一些问题:比如说你基于数据分析得出结论和建议,领导不采纳不接受,决策难落地,自己也做不出成果。如果你发展的顺利,公司组建了一个数据中心,你作为leader,为了迎合现在以及未来各种各样的业务需求,可能需要设计开发数据产品,很大一部分工作就涉及与业务、技术如何配(si)合(bi)沟通的事。

    最后,成为数据部门的老大,可能需要考虑如何将个人的影响力、部门的影响力在企业中放大。这里数据分析可能要在全公司推广,数据分析的决策可能也要上升到影响战略的程度,这其中也有很多技能之外的东西。

    展开全文
  • 找我聊工作方面的问题,她本科学的金融,毕业却去了一家地产公司HR,干的不好最近想跳槽,想转行干运营或者重拾起老本行干财务,看了一圈网上的招聘信息,发现都要求有数据分析能力,于是来向我请教如何学数据分析...
  • 对于数据分析师来说,日常工作最重要的环节不是敲代码,提数师和调参侠,很多时候都过分的关注Python、R、Matlab、SPSS等这些软件或者技能,其实Excel也能搞定一切。本文从Excel 基础知识、表格的基本操作、单元格...
  • Excel+Access做数据分析和报表分析

    万次阅读 2015-07-15 17:33:37
    目录前言 设计思路 一切从简单开始 深入解剖 三分之Excel引用外部数据源 使用外部数据创建透视表透视图 使用外部数据创建图 ...使用ODBC导入数据前言在写这遍文章之前啰嗦一下,最近公司在BI分析,突然有一下想法,
  • 1、数据分析概述 2、数据分析方法论 3、数据准备 4、数据处理 5、数据分析 6、数据展现 7、专业化图表 8、数据分析报告
  • SQL简明数据分析教程

    万次阅读 多人点赞 2017-10-11 19:38:09
    我们可以采用数据库对数据进行有效的存储与管理,并运用数据库进行合理的处理与分析,使其转化为有价值的数据信息。理解数据库的一种简单办法是将其想象为一个存放数据的文件柜, 往文件柜里存放数据资料时,先在文件...
  • 当excel不够用时,如何利用Access进行数据分析

    万次阅读 多人点赞 2019-01-08 09:23:57
    大数据量报表或数据分析的方案 百兆以上,几十万行excel的数据量:数据库ACCESS+SQL 数据若不是达到亿万级别,直接BI工具分析 再大,就不是尔等表哥表姐,数据分析师能解决的了。 鉴于大家都有...
  • 数据分析行业里待了近十年,最近好多人想要让我整理书单出来,帮助大家进行数据分析的入门学习。其实书不在多,而在于精,尤其是对于数据分析来说,重要的不是看了多少书,而是从书中获得了多少数据分析知识,掌握...
  • Spark 高级数据分析(第2版)

    千次阅读 2018-11-06 11:55:07
    作为计算框架,Spark 速度快,开发简单,能同时兼顾批处理和实时数据分析,因此很快被广大企业级用户所采纳,并随着近年人工智能的崛起而成为分析和挖掘大数据的重要得力工具。 本书由业内知名数据科学家执笔,通过...
  • 数据分析中的专业术语

    千次阅读 2019-11-28 19:48:06
    这里为大家带来一些数据分析的专业名词。供大家在面试交流的时候,不要与面试官跨服务器聊天。 正文 数分的专业词汇按照以下三类进行汇总(当然也于这三个行业息息相关) 1、互联网常用名词解释 2、统计学名词解释 3...
  • 数据分析师、数据科学家、大数据专家三个职位的区别 2018.6.11 版权声明:本文为博主chszs的原创文章,未经博主允许不得转载。 随着数据科学和大数据作为主流职业选择的出现,不少人对相关职位名称的内涵存在...
  • 淘宝大数据分析案例

    千次阅读 2021-01-01 23:55:17
    本次结合的是一份淘宝大数据数据,数据集的大小共177MB,数据一共有3182261份(三百多万份数据集),一般的软件是无法计算和分析的,比如Excel,MySQL,Python这些都无法较好的完成相关数据分析。 1.Excel一般是一...
  • 凯斯西储大学轴承数据具体处理过程 本文阐述处理类似凯斯西储大学的轴承数据(一维时间序列信号)的一种方法(结合CNN使用)。 原信号在数据文件中是以...Y=load(‘E:\电脑桌面\实验资料\轴承数据\12kF_0hp\ball_0...
  • EXCEL中的数据分析—抽样分析

    千次阅读 2019-09-11 10:09:06
    今天给大家分享的是如何EXCEL来抽样分析。 有的时候我们的在使用数据的时候不需要直接使用全量的样本来进行分析,而是没有针对性的取出样本量中部分数据进行分析,如果针对性的取数又会对分析结果产生影响。...
  • 1.应聘公司不需要你会高大上的复杂工具,80%的公司最常用的数据分析工具。其实就是3剑客(Excel、SQL、PPT)。少部分公司才会额外要求会Python(或者R)、Tableau(或者Power-BI)。 2. 掌握SQL(操作数据库的语言)...
  • 所谓数据分析的势、道、术,就是指数据分析的方向、方法和工具,也是提出问题、分析...本文从一个传统型行业如物流、零售、制造业等的角度来看数据分析,而并非如今数据分析做的很火的互联网或金融行业的角度。 ...
  • 2019大数据分析软件介绍

    千次阅读 2019-03-25 18:07:31
    数据分析是什么?大数据分析软件有哪些?这是现在这个信息时代每一个企业管理者、经营参与者都需要了解的。今天,小编就来针对性地总结一下,什么是大数据分析,以及2019年主流的商业大数据分析软件。 一、大数据...
  • 数据分析常用的100个指标和术语

    千次阅读 多人点赞 2019-09-05 18:31:47
    3、数据分析名词解释 一、互联网常用名词解释 1、PV(Page View)页面浏览量 指某段时间内访问网站或某一页面的用户的总数量。通常用来衡量一篇文章或一次活动带来的流量效果,也是评价网站日常流量数据的重要...
  • 添加标题之后,我们要对每个代码类型的细胞相应的解释。为此,我们在相应的位置添加细胞,将其类型改为降价,然后重新运行细胞,这样就能让解释文本丰富起来了。 最后,你可以将新建的笔记本重命名,点击...
  • 数据分析师之路-数据埋点

    千次阅读 2018-12-20 15:28:37
    数据分析是一个很复杂的工作,很多人在谈如何挖掘数据,用户画像,设计数据漏斗,如何负责用户生命周期管理,但发现很多人却卡在了数据分析的第一步,那就是如何数据埋点。 通过学习,我了解到一些关于数据埋点...
  • 七款非常好用的电脑数据恢复软件推荐

    万次阅读 多人点赞 2018-11-03 19:54:02
    目前网络上有非常多的数据恢复软件供用户选择,但不同版本的数据恢复软件使用功能不一,且免费的版本较少,本文为大家推荐介绍了几款比较好用的数据恢复软件,需要的朋友可以前来阅读下载。 数据恢复软件哪个比较...
  • 数据科学家、数据工程师、数据分析师已经成为大数据行业最热门的职位。它们是如何定义的?具体是什么工作的?需要哪些技能 一、首先,看看这3个职业是如何定位的? 1.数据科学家是个什么样的存在 数据科学家是指能...
  • 电商数据分析常用指标及意义

    千次阅读 2020-08-17 09:31:00
    备注:这里的指标不涉及成本、费用跟利润相关。 1、uv(访客数) 解释:uv是... 我推荐小蚊子老师团队出品的《谁说菜鸟不会数据分析(Python篇)》 通俗易懂,我就是跟着它从零基础学起的,跟着书上的代码敲一遍。
  • 产品经理数据分析入门

    万次阅读 多人点赞 2017-11-20 11:47:25
    这篇文章一共会分为四个部分进行讲解。...这部分我们可以了解到一些基本数据分析的方法,以及使用数据时需要注意的事项。 利用数据 这里我们可以知道在产品的时候,使用数据的一些场景和利用数据驱动产品的思维方式
  • 浅谈IC卡数据分析

    万次阅读 多人点赞 2020-01-20 10:35:36
    文章目录1.简单介绍2. IC卡详解3.M1卡详解4.常用读写设备介绍5....简称M1,高频最常见的卡,每张卡独一无无二UID 号,可存储修改数据(学生卡,饭卡,公交卡,门禁卡)----国内大部分卡都是此卡 Mif...
  • 数据分析面试知识点总结(更新中...)

    万次阅读 多人点赞 2019-05-03 18:12:58
    https://blog.csdn.net/wypersist/article/details/80114709 (海量数据处理...怎么恶意刷单检测 分类问题机器学习方法建模解决,我想到的特征有: 1)商家特征:商家历史销量、信用、产品类别、发货快递公司等 2...
  • 数据分析最具价值的49个案例(建议收藏)

    万次阅读 多人点赞 2019-01-04 16:18:44
    本文力图从企业运营和管理的角度,梳理出发掘大数据价值的一般规律:一是以数据驱动的决策,主要通过提高预测概率,来提高决策成功率;二是以数据驱动的流程,主要是形成营销闭环战略,提高销售漏斗的转化率;三是以...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 239,326
精华内容 95,730
关键字:

如何用电脑做数据分析