数据分析 订阅
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。 [1]  数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据分析得以推广。数据分析是数学与计算机科学相结合的产物。 [2] 展开全文
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。 [1]  数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据分析得以推广。数据分析是数学与计算机科学相结合的产物。 [2]
信息
数据也称
观测值,实验、测量、观察结果
外文名
Data Analysis
中文名
数据分析
目    的
最大化地开发数据的功能
数据分析简介
数据分析指用适当的统计、分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。 [2]  数据也称为观测值,是实验、测量、观察、调查等的结果。数据分析中所处理的数据分为定性数据和定量数据。只能归入某一类而不能用数值进行测度的数据称为定性数据。定性数据中表现为类别,但不区分顺序的,是定类数据,如性别、品牌等;定性数据中表现为类别,但区分顺序的,是定序数据,如学历、商品的质量等级等。 [1] 
收起全文
精华内容
下载资源
问答
  • Python数据分析套餐课

    2020-08-21 13:24:00
    Python数据分析套餐课
  • Python数据分析实例

    万次阅读 多人点赞 2019-06-14 22:13:37
    Python数据分析 Python爬取网页数据

    Python数据分析

    Python爬取网页数据

    // An highlighted block
    import requests
    if __name__=="__main__":
        response = requests.get("https://book.douban.com/subject/26986954/")
        content = response.content.decode("utf-8")
        print(content)
    
    // An highlighted block
    import requests
    url="https://pro.jd.com/mall/active/4BNKTNkRMHJ48QQ5LrUf6AsydtZ6/index.html"
    try:
        r=requests.get(url)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        print(r.text[:100])
    except:
        print("爬取失败")
    

    Python生成柱状图

    // An highlighted block
    import matplotlib.pyplot as plt  
      
    num_list = [1.5,0.6,7.8,6]  
    plt.bar(range(len(num_list)), num_list,color='rbgy')  
    plt.show()  
    

    在这里插入图片描述
    Python生成堆状柱状图

    // An highlighted block
    import matplotlib.pyplot as plt  
      
    name_list = ['Monday','Tuesday','Friday','Sunday']  
    num_list = [1.5,0.6,7.8,6]  
    num_list1 = [1,2,3,1]  
    plt.bar(range(len(num_list)), num_list, label='boy',fc = 'y')  
    plt.bar(range(len(num_list)), num_list1, bottom=num_list, label='girl',tick_label = name_list,fc = 'r')  
    plt.legend()  
    plt.show()  
    

    在这里插入图片描述
    Python生成竖状柱状图

    // An highlighted block
    import matplotlib.pyplot as plt  
      
    name_list = ['Monday','Tuesday','Friday','Sunday']  
    num_list = [1.5,0.6,7.8,6]  
    num_list1 = [1,2,3,1]  
    x =list(range(len(num_list)))  
    total_width, n = 0.8, 2  
    width = total_width / n  
      
    plt.bar(x, num_list, width=width, label='boy',fc = 'y')  
    for i in range(len(x)):  
        x[i] = x[i] + width  
    plt.bar(x, num_list1, width=width, label='girl',tick_label = name_list,fc = 'r')  
    plt.legend()  
    plt.show()  
    

    在这里插入图片描述
    Python生成折线图

    // An highlighted block
    import pandas as pd
    import numpy as np
     
    df = pd.DataFrame(np.random.rand(15, 4), columns=['a', 'b', 'c', 'd'])
    df.plot.area() 
    

    在这里插入图片描述
    Python生成柱状图

    // An highlighted block
    import pandas as pd
    import numpy as np
     
    df = pd.DataFrame(3 * np.random.rand(5), index=['a', 'b', 'c', 'd','e'], columns=['x'])
    df.plot.pie(subplots=True)
    

    在这里插入图片描述
    Python生成箱型图

    // An highlighted block
    #首先导入基本的绘图包
    import matplotlib.pyplot as plt
    import numpy as np
    import pandas as pd
    
    #添加成绩表
    plt.style.use("ggplot")
    plt.rcParams['axes.unicode_minus'] = False
    plt.rcParams['font.sans-serif']=['SimHei'] 
    
    #新建一个空的DataFrame
    df=pd.DataFrame()
    
    // An highlighted block
    df["英语"]=[76,90,97,71,70,93,86,83,78,85,81]
    df["经济数学"]=[65,95,51,74,78,63,91,82,75,71,55]
    df["西方经济学"]=[93,81,76,88,66,79,83,92,78,86,78]
    df["计算机应用基础"]=[85,78,81,95,70,67,82,72,80,81,77]
    df
    
    // An highlighted block
    plt.boxplot(x=df.values,labels=df.columns,whis=1.5)
    plt.show()
    

    在这里插入图片描述

    // An highlighted block
    #用pandas自带的画图工具更快
    df.boxplot()
    plt.show()
    

    在这里插入图片描述
    Python生成正态分布图

    // An highlighted block
    # -*- coding:utf-8 -*-
    # Python实现正态分布
    # 绘制正态分布概率密度函数
    import numpy as np
    import matplotlib.pyplot as plt
    import math
    
    u = 0  # 均值μ
    u01 = -2
    sig = math.sqrt(0.2)  # 标准差δ
    
    x = np.linspace(u - 3 * sig, u + 3 * sig, 50)
    y_sig = np.exp(-(x - u) ** 2 / (2 * sig ** 2)) / (math.sqrt(2 * math.pi) * sig)
    print(x)
    print("=" * 20)
    print(y_sig)
    plt.plot(x, y_sig, "r-", linewidth=2)
    plt.grid(True)
    plt.show()
    

    在这里插入图片描述
    喜欢的小伙伴可以尝试一下哦

    这是小编公众号,请动动您可爱的小手手,关注一下💓😘
    在这里插入图片描述

    展开全文
  • Python数据分析与机器学习实战

    万人学习 2017-01-24 10:18:45
    Python数据分析与机器学习实战教程,该课程精心挑选真实的数据集为案例,通过python数据科学库numpy,pandas,matplot结合机器学习库scikit-learn完成一些列的机器学习案例。课程以实战为基础,所有课时都结合代码演示...
  • python数据分析

    万次阅读 多人点赞 2018-07-22 19:43:44
    python绘图、python数据分析、python库、股票分析

    所有资料汇总学习:点这里

    利用python进行数据分析

    数据在这里下载

    github连接

    记得点个star!!!

    里面还放着一些陈年老代码,都是机器学习和数据分析相关的。(没怎么整理,都在里面,看到隐私别慌~)

    Numpy

    Numpy简单使用(入门)

    Pandas入门

    Pandas入门系列(一)-- Series
    Pandas入门系列(二)-- DataFrame
    Pandas入门系列(三)-- 深入理解Series和DataFrame
    Pandas入门系列(四) – Pandas io操作
    Pandas入门系列(五) – Indexing和Selecting
    Pandas入门系列(六) – reindex
    Pandas入门系列(七) – NaN
    Pandas入门系列(八) – 多级index
    Pandas入门系列(九) – Map和replace

    pandas进阶

    Pandas玩转数据(一) – 简单计算
    Pandas玩转数据(二) – Series和DataFrame排序
    Pandas玩转数据(三) – DataFrame重命名
    Pandas玩转数据(四) – DataFrame的merge
    Pandas玩转数据(五) – Concatenate和Combine
    Pandas玩转数据(六) – 通过apply对数据进行处理
    Pandas玩转数据(七) – Series和DataFrame去重
    Pandas玩转数据(八) – 时间序列简单操作
    Pandas玩转数据(九) – 时间序列的采样和画图
    Pandas玩转数据(十) – 数据分箱技术Binning
    Pandas玩转数据(十一) – 数据分组技术Groupby
    Pandas玩转数据(十二) – 数据聚合技术Aggregation
    Pandas玩转数据(十三) – 透视表
    Pandas玩转数据(十四) – 分组和透视功能实战

    Matplotlib入门

    Matplotlib简单画图(一) – plot
    Matplotlib简单画图(二) – subplot
    Matplotlib简单画图(三) – pandas绘图之Series
    Matplotlib简单画图(四) – pandas绘图之DataFrame
    Matplotlib简单画图(五) – 直方图和密度图

    Matplotlib扩展之Seaborn

    Seaborn简单画图(一) – 散点图
    Seaborn简单画图(二) – 直方图和密度图
    Seaborn简单画图(三) – 柱状图和热力图
    Seaborn简单画图(四) – 设置图形显示效果
    Seaborn简单画图(五) – Seaborn调色功能

    获取数据的一个库Tushare

    Tushare获取数据

    简单实战

    股票市场分析实战

    展开全文
  • Python爬取B站视频评论并进行数据分析

    万次阅读 多人点赞 2021-01-02 16:14:29
    文章目录数据分析数据预处理数据描述删除空值删除空值可视化点赞TOP20等级分布性别分布绘制词云图数据收集 数据分析 import pandas as pd data = pd.read_excel(r"bingbing.xlsx") data.head() 用户 ...

    Python爬取B站视频评论并进行数据分析

    Python爬取 冰冰 第一条B站视频的千条评论,绘制词云图,看看大家说了什么吧,Python爬取B站视频评论并进行数据分析

    酱酱酱,那就开始吧

    版权声明:本文为博主原创文章,创作不易
    本文链接:https://beishan.blog.csdn.net/article/details/112100932

    在这里插入图片描述


    【冰冰vlog.001】带大家看看每个冬天我必去的地方


    推荐阅读:

    matplotlib实用绘图技巧总结
    Python 数据可视化–Seaborn绘图总结1
    Python数据可视化–Seaborn绘图总结2


    Tableau数据分析-Chapter01条形图、堆积图、直方图
    Tableau数据分析-Chapter02数据预处理、折线图、饼图
    Tableau数据分析-Chapter03基本表、树状图、气泡图、词云
    Tableau数据分析-Chapter04标靶图、甘特图、瀑布图
    Tableau数据分析-Chapter05数据集合并、符号地图
    Tableau数据分析-Chapter06填充地图、多维地图、混合地图
    Tableau数据分析-Chapter07多边形地图和背景地图
    Tableau数据分析-Chapter08数据分层、数据分组、数据集
    Tableau数据分析-Chapter09粒度、聚合与比率
    Tableau数据分析-Chapter10 人口金字塔、漏斗图、箱线图
    Tableau中国五城市六年PM2.5数据挖掘

    B站当日弹幕获取
    冰冰B站视频弹幕爬取原理解析

    1. 数据收集

    1.1 获取接口

    哔哩哔哩其实留了很多接口,可以供我们来获取数据。 首先打开目标网站,并查看网页源码,发现评论内容不在源码中,可以确认评论是动态生成的。于是进入开发者模式,查找返回的内容。

    1.2 查看数据

    点击preview即可发现评论数据在这里
    在这里插入图片描述

    1.3 解析URL

    去掉第一个和最后一个参数可得评论URL,https://api.bilibili.com/x/v2/replyjsonp&type=1&oid=800760067&sort=2&pn=.

    在这里插入图片描述


    1.4 解析数据

    大家可以将获取的json
    接下来就是正式的爬取工作了,和爬取百度图片原理一样,自己试试吧。
    为了方便查看json数据,可以将html中的json复制到json在线解析中查看
    在这里插入图片描述

    2. 数据分析

    数据获取后,就可以开始初步的数据分析了

    import pandas as pd
    
    data = pd.read_excel(r"bingbing.xlsx")
    data.head()
    
    用户性别等级评论点赞
    0食贫道6[呆][呆][呆]你来了嘿!158457
    1毕导THU6我是冰冰仅有的3个关注之一[tv_doge]我和冰冰贴贴148439
    2老师好我叫何同学6[热词系列_知识增加]89634
    3央视网快看保密6冰冰来了!我们要失业了吗[doge][doge]118370
    4厦门大学保密5哇欢迎冰冰!!!66196

    原文链接

    2.1 数据描述

    data.describe()
    
    等级点赞
    count1180.0000001180.000000
    mean4.4813562200.617797
    std1.04137910872.524850
    min2.0000001.000000
    25%4.0000004.000000
    50%5.0000009.000000
    75%5.000000203.750000
    max6.000000158457.000000

    2. 2 删除空值

    data.dropna()
    
    用户性别等级评论点赞
    0食贫道6[呆][呆][呆]你来了嘿!158457
    1毕导THU6我是冰冰仅有的3个关注之一[tv_doge]我和冰冰贴贴148439
    2老师好我叫何同学6[热词系列_知识增加]89634
    3央视网快看保密6冰冰来了!我们要失业了吗[doge][doge]118370
    4厦门大学保密5哇欢迎冰冰!!!66196
    ..................
    1175黑旗鱼保密511小时一百万,好快[惊讶]5
    1176是你的益达哦6冰冰粉丝上涨速度:11小时107.3万,平均每小时上涨9.75万,每分钟上涨1625,每秒钟...5
    1177快乐风男崔斯特4军训的时候去了趟厕所,出来忘记是哪个队伍了。看了up的视频才想起来,是三连[doge][滑稽]5
    1178很认真的大熊5我觉得冰冰主持春晚应该问题不大吧。[OK]5
    1179飞拖鞋呀吼保密5《论一个2级号如何在2020年最后一天成为百大up主》5

    1180 rows × 5 columns

    2.3 删除重复值

    data.drop_duplicates()
    
    用户性别等级评论点赞
    0食贫道6[呆][呆][呆]你来了嘿!158457
    1毕导THU6我是冰冰仅有的3个关注之一[tv_doge]我和冰冰贴贴148439
    2老师好我叫何同学6[热词系列_知识增加]89634
    3央视网快看保密6冰冰来了!我们要失业了吗[doge][doge]118370
    4厦门大学保密5哇欢迎冰冰!!!66196
    ..................
    1175黑旗鱼保密511小时一百万,好快[惊讶]5
    1176是你的益达哦6冰冰粉丝上涨速度:11小时107.3万,平均每小时上涨9.75万,每分钟上涨1625,每秒钟...5
    1177快乐风男崔斯特4军训的时候去了趟厕所,出来忘记是哪个队伍了。看了up的视频才想起来,是三连[doge][滑稽]5
    1178很认真的大熊5我觉得冰冰主持春晚应该问题不大吧。[OK]5
    1179飞拖鞋呀吼保密5《论一个2级号如何在2020年最后一天成为百大up主》5

    1179 rows × 5 columns

    3. 可视化展示

    用的的工具是pyecharts,可以参考快速掌握数据可视化工具pyecharts

    3.1 点赞TOP20

    df1 = data.sort_values(by="点赞",ascending=False).head(20)
    
    from pyecharts import options as opts
    from pyecharts.charts import Bar
    from pyecharts.faker import Faker
    
    c1 = (
        Bar()
        .add_xaxis(df1["评论"].to_list())
        .add_yaxis("点赞数", df1["点赞"].to_list(), color=Faker.rand_color())
        .set_global_opts(
            title_opts=opts.TitleOpts(title="评论热度Top20"),
            datazoom_opts=[opts.DataZoomOpts(), opts.DataZoomOpts(type_="inside")],
        )
        .render_notebook()
    )
    c1
    

    在这里插入图片描述

    3.2 等级分布

    data.等级.value_counts().sort_index(ascending=False)
    
    6    165
    5    502
    4    312
    3    138
    2     63
    Name: 等级, dtype: int64
    
    from pyecharts import options as opts
    from pyecharts.charts import Pie
    from pyecharts.faker import Faker
    
    c2 = (
        Pie()
        .add(
            "",
            [list(z) for z in zip([str(i) for i in range(2,7)], [63,138,312,502,165])],
            radius=["40%", "75%"],
        )
        .set_global_opts(
            title_opts=opts.TitleOpts(title="等级分布"),
            legend_opts=opts.LegendOpts(orient="vertical", pos_top="15%", pos_left="2%"),
        )
        .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
        .render_notebook()
    )
    c2
    

    在这里插入图片描述

    3.3 性别分布

    data.性别.value_counts().sort_index(ascending=False)
    
    from pyecharts import options as opts
    from pyecharts.charts import Pie
    from pyecharts.faker import Faker
    
    c4 = (
        Pie()
        .add(
            "",
            [list(z) for z in zip(["男","女","保密"], ["404",'103','673'])],
            radius=["40%", "75%"],
        )
        .set_global_opts(
            title_opts=opts.TitleOpts(title="性别分布"),
            legend_opts=opts.LegendOpts(orient="vertical", pos_top="15%", pos_left="2%"),
        )
        .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
        .render_notebook()
        
    )
    c4
    

    在这里插入图片描述

    3.4 绘制词云图

    from wordcloud import WordCloud
    import jieba
    from tkinter import _flatten
    from matplotlib.pyplot import imread
    from PIL import Image, ImageDraw, ImageFont
    import matplotlib.pyplot as plt
    with open('stoplist.txt', 'r', encoding='utf-8') as f:
        stopWords = f.read()
    with open('停用词.txt','r',encoding='utf-8') as t:
        stopWord = t.read()
    total = stopWord.split() + stopWords.split()
    def my_word_cloud(data=None, stopWords=None, img=None):
        dataCut = data.apply(jieba.lcut)  # 分词
        dataAfter = dataCut.apply(lambda x: [i for i in x if i not in stopWords])  # 去除停用词
        wordFre = pd.Series(_flatten(list(dataAfter))).value_counts()  # 统计词频
        mask = plt.imread(img)
        plt.figure(figsize=(20,20))
        wc  = WordCloud(scale=10,font_path='C:/Windows/Fonts/STXINGKA.TTF',mask=mask,background_color="white",)
        wc.fit_words(wordFre)
        plt.imshow(wc)
        plt.axis('off')
    my_word_cloud(data=data["评论"],stopWords=stopWords,img="1.jpeg")
    

    3.5 Summary

    在这里插入图片描述
    推荐阅读:

    1. Tableau数据分析-Chapter01条形图、堆积图、直方图
    2. Tableau数据分析-Chapter02数据预处理、折线图、饼图
    3. Tableau数据分析-Chapter03基本表、树状图、气泡图、词云
    4. Tableau数据分析-Chapter04标靶图、甘特图、瀑布图
    5. Tableau数据分析-Chapter05数据集合并、符号地图
    6. Tableau数据分析-Chapter06填充地图、多维地图、混合地图
    7. Tableau数据分析-Chapter07多边形地图和背景地图
    8. Tableau数据分析-Chapter08数据分层、数据分组、数据集
    9. Tableau数据分析-Chapter09粒度、聚合与比率
    10. Tableau数据分析-Chapter10 人口金字塔、漏斗图、箱线图
    11. Tableau中国五城市六年PM2.5数据挖掘

    4. 后记

    根据弹幕获取的词云图,可以参考
    冰冰B站视频弹幕爬取原理解析

    通过之前博客的学习,想必大家已经对Python网络爬虫有了了解,希望大家动手实践。笔者能力有限,有更多有趣的发现,欢迎私信或留言

    推荐阅读:

    1. 冰冰B站视频弹幕爬取原理解析
    2. Python建立时间序列ARIMA模型实战案例
    3. 使用xpath爬取数据
    4. jupyter notebook使用
    5. BeautifulSoup爬取豆瓣电影Top250
    6. 一篇文章带你掌握requests模块
    7. Python网络爬虫基础–BeautifulSoup

    到这里就结束了,如果对你有帮助,欢迎点赞关注,你的点赞对我很重要

    在这里插入图片描述

    在这里插入图片描述

    展开全文
  • Python数据分析三剑客-主流数据分析库精讲
  • Python数据分析与挖掘

    万人学习 2018-01-08 11:17:45
    从海量数据中获得别人看不见的信息,创业者可以通过数据分析来优化产品,营销人员可以通过数据分析改进营销策略,产品经理可以通过数据分析洞察用户习惯,金融从业者可以通过数据分析规避投资风险,程序员可以通过...
  • 数据挖掘与数据分析

    万次阅读 多人点赞 2018-05-28 13:58:14
    一、数据挖掘和数据分析概述 数据挖掘和数据分析都是从数据中提取一些有价值的信息,二者有很多联系,但是二者的侧重点和实现手法有所区分。 数据挖掘和数据分析的不同之处: 1、在应用工具上,数据挖掘一般要通过...

    一、数据挖掘和数据分析概述

    数据挖掘和数据分析都是从数据中提取一些有价值的信息,二者有很多联系,但是二者的侧重点和实现手法有所区分。 
    数据挖掘和数据分析的不同之处: 
    1、在应用工具上,数据挖掘一般要通过自己的编程来实现需要掌握编程语言;而数据分析更多的是借助现有的分析工具进行。 
    2、在行业知识方面,数据分析要求对所从事的行业有比较深的了解和理解,并且能够将数据与自身的业务紧密结合起来;而数据挖掘不需要有太多的行业的专业知识。 
    3、交叉学科方面,数据分析需要结合统计学、营销学、心理学以及金融、政治等方面进行综合分析;数据挖掘更多的是注重技术层面的结合以及数学和计算机的集合 
    数据挖掘和数据分析的相似之处: 
    1、数据挖掘和数据分析都是对数据进行分析、处理等操作进而得到有价值的知识。 
    2、都需要懂统计学,懂数据处理一些常用的方法,对数据的敏感度比较好。 
    3、数据挖掘和数据分析的联系越来越紧密,很多数据分析人员开始使用编程工具进行数据分析,如SAS、R、SPSS等。而数据挖掘人员在结果表达及分析方面也会借助数据分析的手段。二者的关系的界限变得越来越模糊。

    二、数据挖掘

     

    1 数学预备知识 

    概率论:支撑整个数据挖掘算法和机器学习算法的数学基础,要熟悉常见的一些概率分布。 
    矩阵论:线性代数中对数据挖掘最有用的部分,还有一些线性空间相关知识也很重要。 
    信息论:将信息和数学紧密连接在一起并完美的表达的桥梁,需要掌握信息熵、信息增益等相关知识。 
    统计学:数据分析最早的依赖基础,通常和概率论一起应用,现在的机器学习和数据挖掘很多都是基于统计的,常见的均值、方差、协方差等都要熟练掌握。

     

    2 编程基础 

    数据挖掘需要一定的编程基础,因为要实现模型以及数据的处理很多工作都是需要程序来进行的,数据挖掘常用的编程语言如下: 
    SQL:数据库的熟练使用是任何数据挖掘人员必不可少的技能。 
    C++ :有很多的标准模板库以及机器学习模型库进行调用可以方便编程实现。 
    Python:对字符串处理有极大的优势,是解释型语言,实现简单,而且有很多开源的机器学习模型库的支持,可处理大规模数据。 
    Matlab:拥有强大的矩阵运算,也是解释型语言,有很多发展较成熟库可以直接调用,支持数据结果的可视化表示,但是处理数据量有限。 
    R:近年兴起的数据分析编程语言,数据可视化做的比较好,语法简单,学习成本很低,很多非程序设计人员都可以数量掌握。 
    Java:使用范围最广的编程语言,有很多社区进行交流,进行编程实现具有灵活高效的特点,不足之处就是实现功能的代码量较大(相对于其他数据挖掘编程语言)。 
    Scala: 一种具有面向对象风格、函数式风格、更高层的并发模型的编程语言。同时Scala是大数据处理平台Spark的实现语言。

     

    3 数据挖掘的模型知识 

    机器学习和数据挖掘是紧密相关的,要进行数据挖掘需要掌握一些机器学习所用的方法和模型知识,通过模型的训练可以得到处理数据的最优的模型。数据挖掘常用的模型如下:

     

    3.1 监督学习模型 

    就是人们常说的分类,通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优则表示在某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的,也就具有了对未知数据进行分类的能力。

     

    3.1.1决策树: 

    决策树是用于分类和预测的主要技术之一,决策树学习是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的实例中推理出以决策树表示的分类规则。构造决策树的目的是找出属性和类别间的关系,用它来预测将来未知类别的记录的类别。它采用自顶向下的递归方式,在决策树的内部节点进行属性的比较,并根据不同属性值判断从该节点向下的分支,在决策树的叶节点得到结论。 
    主要的决策树算法有ID3、C4.5(C5.0)、CART、PUBLIC、SLIQ和SPRINT算法等。它们在选择测试属性采用的技术、生成的决策树的结构、剪枝的方法以及时刻,能否处理大数据集等方面都有各自的不同之处。

     

    3.1.2 贝叶斯方法: 

    贝叶斯(Bayes)分类算法是一类利用概率统计知识进行分类的算法,如朴素贝叶斯(Naive Bayes)算法。这些算法主要利用Bayes定理来预测一个未知类别的样本属于各个类别的可能性,选择其中可能性最大的一个类别作为该样本的最终类别。由于贝叶斯定理的成立本身需要一个很强的条件独立性假设前提,而此假设在实际情况中经常是不成立的,因而其分类准确性就会下降。为此就出现了许多降低独立性假设的贝叶斯分类算法,如TAN(Tree Augmented Native Bayes)算法,它是在贝叶斯网络结构的基础上增加属性对之间的关联来实现的。

     

    3.1.3 神经网络 

    神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。在这种模型中,大量的节点(称”神经元”)之间相互联接构成网络,即”神经网络”,以达到处理信息的目的。神经网络通常需要进行训练,训练的过程就是网络进行学习的过程。训练改变了网络节点的连接权的值使其具有分类的功能,经过训练的网络就可用于对象的识别。目前,神经网络已有上百种不同的模型,常见的有BP神经网络、径向基RBF网络、Hopfield网络、随机神经网络(Boltzmann机)、竞争神经网络(Hamming网络,自组织映射网络)等。但是当前的神经网络仍普遍存在收敛速度慢、计算量大、训练时间长和不可解释等缺点。

     

    3.1.4 支持向量机(SVM) 

    支持向量机(SVM,Support Vector Machine)是根据统计学习理论提出的一种新的学习方法,它的最大特点是根据结构风险最小化准则,以最大化分类间隔构造最优分类超平面来提高学习机的泛化能力,较好地解决了非线性、高维数、局部极小点等问题。对于分类问题,支持向量机算法根据区域中的样本计算该区域的决策曲面,由此确定该区域中未知样本的类别。

     

    3.1.5 集成学习分类模型 

    集成学习是一种机器学习范式,它试图通过连续调用单个的学习算法,获得不同的基学习器,然后根据规则组合这些学习器来解决同一个问题,可以显著的提高学习系统的泛化能力。主要采用(加权)投票的方法组合多个基学习器,常见的算法有装袋(Bagging)、提升/推进(Boosting)、随机森林等。集成学习由于采用了投票平均的方法组合多个分类器,所以有可能减少单个分类器的误差,获得对问题空间模型更加准确的表示,从而提高分类器的分类准确度。

     

    3.1.6 其他分类学习模型 

    此外还有logistics回归模型、隐马尔科夫分类模型(HMM)、基于规则的分类模型等众多的分类模型,对于处理不同的数据、分析不同的问题,各种模型都有自己的特性和优势。

     

    3.2 无监督学习模型 

    在非监督式学习中,数据并不被特别标识,学习模型是为了推断出数据的一些内在结构,应用场景包括关联规则的学习以及聚类等。常见的聚类算法如下所示:

     

    3.2.1 K-means聚类 

    K-means算法的基本思想是初始随机给定K个簇中心,按照最邻近原则把待分类样本点分到各个簇。然后按平均法重新计算各个簇的质心,从而确定新的簇心。一直迭代,直到簇心的移动距离小于某个给定的值。

     

    3.2.2 基于密度的聚类 

    根据密度完成对象的聚类。它根据对象周围的密度(如DBSCAN)不断增长聚类。典型的基于密度方法包括:DBSCAN(Densit-based Spatial Clustering of Application with Noise):该算法通过不断生长足够高密度区域来进行聚类;它能从含有噪声的空间数据库中发现任意形状的聚类。此方法将一个聚类定义为一组“密度连接”的点集。OPTICS(Ordering Points To Identify the Clustering Structure):并不明确产生一个聚类,而是为自动交互的聚类分析计算出一个增强聚类顺序。

     

    3.2.3 层次聚类方法 

    层次聚类方法对给定的数据集进行层次的分解,直到某种条件满足为止。层次凝聚的代表是AGNES算法,层次分裂的代表是DIANA算法。具体又可分为凝聚的,分裂的两种方案。 
    凝聚的层次聚类是一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有的对象都在一个簇中,或者某个终结条件被满足,绝大多数层次聚类方法属于这一类,它们只是在簇间相似度的定义上有所不同。 
    分裂的层次聚类与凝聚的层次聚类相反,采用自顶向下的策略,它首先将所有对象置于同一个簇中,然后逐渐细分为越来越小的簇,直到每个对象自成一簇,或者达到了某个终止条件。

     

    3.2.4 谱聚类 

    谱聚类(Spectral Clustering, SC)是一种基于图论的聚类方法——将带权无向图划分为两个或两个以上的最优子图,使子图内部尽量相似,而子图间距离尽量距离较远,以达到常见的聚类的目的。其中的最优是指最优目标函数不同,可以是割边最小分割, 也可以是分割规模差不多且割边最小的分割。谱聚类能够识别任意形状的样本空间且收敛于全局最优解,其基本思想是利用样本数据的相似矩阵(拉普拉斯矩阵)进行特征分解后得到的特征向量进行聚类。 
    此外常用的聚类方法还有基于网格的聚类、模糊聚类算法、自组织神经网络SOM、基于统计学的聚类算法(COBWeb、AutoClass)等。

     

    3.3 半监督学习 
    3.3.1 半监督学习概述 

    半监督学习算法要求输入数据部分被标识,部分没有被标识,这种学习模型可以用来进行预测,但是模型首先需要学习数据的内在结构以便合理的组织数据来进行预测。应用场景包括分类和回归,算法包括一些对常用监督式学习算法的延伸,这些算法首先试图对未标识数据进行建模,在此基础上再对标识的数据进行预测。如图论推理算法(Graph Inference)或者拉普拉斯支持向量机(Laplacian SVM.)等。

     

    3.3.2 Multi-view algorithm(多视角算法) 

    一般多用于可以进行自然特征分裂的数据集中.考虑特殊情况(每个数据点表征两个特征):每一个数据点看成是两个特征的集合,然后利用协同训练(Co-training algorithm)进行处理.协同训练(co-training)算法,此类算法隐含地利用了聚类假设或流形假设,它们使用两个或多个学习器,在学习过程中,这些学习器挑选若干个置信度高的未标记示例进行相互标记,从而使得模型得以更新。

     

    3.3.3 Graph-Based Algorithms(基于图的算法) 

    基于图的算法是基于图正则化框架的半监督学习算法,此类算法直接或间接地利用了流形假设,它们通常先根据训练例及某种相似度度量建立一个图,图中结点对应了(有标记或未标记)示例,边为示例间的相似度,然后,定义所需优化的目标函数并使用决策函数在图上的光滑性作为正则化项来求取最优模型参数。

     

    **3.4 文本处理模型 
    3.4.1 分词模型** 

    分词模型主要在处理文本过程中使用,在此特指中文分词模型。中文分词算法现在一般分为三类:基于字符串匹配,基于理解,基于统计的分词。 
    基于字符串匹配分词: 
    机械分词算法。将待分的字符串与一个充分大的机器词典中的词条进行匹配。分为正向匹配和逆向匹配;最大长度匹配和最小长度匹配;单纯分词和分词与标注过程相结合的一体化方法。所以常用的有:正向最大匹配,逆向最大匹配,最少切分法。实际应用中,将机械分词作为初分手段,利用语言信息提高切分准确率。优先识别具有明显特征的词,以这些词为断点,将原字符串分为较小字符串再机械匹配,以减少匹配错误率;或将分词与词类标注结合。 
    基于理解分词: 
    分词同时进行句法语义分析等模拟人对句子的理解,包括分词子系统,句法语义系统,总控部分。总控部分协调下,分词字系统可以获得有关词,句子等的句法和语义信息对分词歧义进行判断。需要大量的语言知识信息。 
    基于统计分词: 
    相邻的字同时出现的次数越多,越有可能构成一个词语,对语料中的字组频度进行统计,不需要切词字典,但错误率很高。可以考虑:使用基本词典进行关键词分词,使用统计方法识别新词组,两者结合。

     

    3.4.2 TF-IDF模型 

    TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜寻引擎还会使用基于连结分析的评级方法,以确定文件在搜寻结果中出现的顺序。 
    TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TFIDF实际上是:TF * IDF,TF词频(Term Frequency),IDF反文档频率(Inverse Document Frequency)。TF表示词条在文档d中出现的频率(另一说:TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数)。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。(另一说:IDF反文档频率(Inverse Document Frequency)是指果包含词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。)但是实际上,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其它类文档。这就是IDF的不足之处.

     

    3.4.3 LDA模型 

    LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。 
    LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序,这简化了问题的复杂性,同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。

     

    4 模型评价指标 
    4.1 模型评价概述 

    建模构建过程中会得出一系列的分析结果、模式或模型。同一个采样数据可以利用多种数据分析方法和模型进行分析,模型评价的目的之一就是从这些模型中自动找出一个最好的模型出来,另外就是要针对业务对模型进行解释和应用。 
    模型效果评价通常分两步,第一步是直接使用原来建立模型的样本数据来进行检验。假如这一步都通不过,那么所建立的决策支持信息价值就不太大了。一般来说,在这一步应得到较好的评价。这说明你确实从这批数据样本中挖掘出了符合实际的规律性。第一步通过后,第二步是另外找一批数据,已知这些数据是反映客观实际的、规律性的。这次的检验效果可能会比前一种差,差多少是要注意的,若是差到所不能容忍程度,那就要考虑第一步构建的样本数据是否具有充分的代表性,或是模型本身是否够完善。这时候可能要对前面的工作进行反思了。若这一步也得到了肯定的结果时,那所建立的数据挖掘模型应得到很好的评价了。

     

    4.2 常用的模型评价方法 
    4.2.1 预测准确率 

    预测准确率又称作精度是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率。取值在0和1之间,数值越接近1,查准率就越高。 
    计算公式:正确率 = 提取出的正确信息条数 / 提取出的信息条数

     

    4.2.2 召回率 

    召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率。取值在0和1之间,数值越接近1,查全率就越高。 
    计算公式:召回率 = 提取出的正确信息条数 / 样本中的信息条数

     

    4.2.3 综合指标F值 

    F值为正确率和召回率的调和平均值,能够综合平衡的去表示模型的性能效果。 
    计算公式:F值 = 正确率 * 召回率 * 2 / (正确率 + 召回率)

     

    4.2.4 ROC曲线 

    受试者工作特性(Receiver Operating Characteristic,ROC)曲线是一种非常有效的模型评价方法,可为选定临界值给出定量提示。将灵敏度(Sensitivity)设在纵轴,1-特异性(1-Specificity)设在横轴,就可得出ROC曲线图。该曲线下的积分面积(Area)大小与每种方法优劣密切相关,反映分类器正确分类的统计概率,其值越接近1说明该算法效果越好。

     

    4.2.5 数据相似度 

    聚类分群效果可以通过向量数据之间的相似度来衡量,向量数据之间的相似度定义为两个向量之间的距离(实时向量数据与聚类中心向量数据),距离越近则相似度越大,即该实时向量数据归为某个聚类。常用的相似度计算方法有:欧几里得距离法(Euclidean Distance)、皮尔逊相关系数法(Pearson Correlation Coefficient)、Cosine相似度和Tanimoto系数法。

     

    4.2.6 其他的模型评价方法 

    除上述的模型评价方法外,还有一些较为详细的模型评价方法。如可以用相对绝对误差、平均绝对误差、根均方差、相对平方根误差等指标来衡量。此外模型的鲁棒性和容错性以及处理数据的速度、能够处理数据的规模等都是衡量一个模型的重要指标。

    5 数据挖掘开发平台

     

    5.1 单机模型开发平台 

    直接在单机上部署数据挖掘开发环境,比如说安装mysql+python就可以搭建一个数据挖掘环境。

     

    5.2分布式集群开发平台 
    5.2.1 Hadoop集群环境 

    Hadoop 是一个通过分布式集群技术,将多个物理机或虚拟机(VMware等厂商的虚拟化技术在一个物理机上运行多个虚拟机)当作一台机器运行。基于Hadoop的数据挖掘数据挖掘一旦完成,就会生成挖掘结果即模式。

     

    5.4.2 Spark集群环境 

    Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。 
    6 数据挖掘的开发流程 
    6.1 数据获取 
    6.2 数据清洗 
    6.3 数据变换 
    6.4 特征工程 
    6.5 模型训练 
    6.6 模型优化 
    6.7 结果分析

    三、数据分析

    相比于数据挖掘,数据分析更多在于利用一定的工具和一定的专业知识分析数据。最初的数据分析来源于统计学家和经济学家的一些理论,进而结合一定的实际应用场景解决问题。数据分析更多的是偏重于业务层次的,对于大多数非计算机相关专业人士来说,掌握一般的数据分析方法是十分有用的,入门上手也相对简单。

    1 数学和专业的预备知识

    概率论:数据分析的重要数学基础,要熟悉常见的一些概率分布。 
    统计学:数据分析最早的依赖基础,通常和概率论一起应用,数据分析要掌握常见的均值、方差、协方差等。 
    心理学:数据分析往往要结合不同的学科知识进行分析,在数据分析的过程中,分析人员往往要结合用户的心理进行结果的调整和分析。 
    专业知识:一般来说,数据分析人员是对某一特定领域进行分析,这就要求分析人员具备一定的行业的专业知识。

    2 使用数据分析软件

    SPSS:功能非常强大非常专业的数据统计软件,界面友好,输出结果美观漂亮。SPSS软件具有信息的采集、处理、分析进行全面评估和预测等功能。包含广义线性混合模型、自动线性模型、一个统计网页入口portal和直复营销direct marketing功能。 
    SAS: 是一个模块化、集成化的大型应用软件系统,由数十个专用模块构成,功能包括数据访问、数据储存及管理、应用开发、图形处理、数据分析、报告编制、运筹学方法、计量经济学与预测等等。 
    Excel:办公套件中最能胜任数据分析的软件,简单实用。 
    Sql:非计算机专业的数据分析人员要操作数据必备的数据库语言。 
    R: 近年兴起的数据分析编程语言,数据可视化做的比较好,语法简单,学习成本很低,很多非程序设计人员都可以数量掌握。

     

    3 数据分析模型选取 

    数据分析人员可以借助一些现场的分析软件进行分析,这些软件集成了一些良好的分析模型,分析人员可以根据自己的实际应用场景进行合适的模型选择。基本的分析方法有:对比分析法、分组分析法、交叉分析法、结构分析法、漏斗图分析法、综合评价分析法、因素分析法、矩阵关联分析法等。高级的分析方法有:相关分析法、回归分析法、聚类分析法、判别分析法、主成分分析法、因子分析法、对应分析法、时间序列等。

     

    4 分析结果展示 

    数据分析的结果通过一些可视化图形或者报表形式进行展示能够增强对分析结果的理解。常用的的分析结果展示方法有: 
    图表展示:用一些柱状图、饼图、盒图等进行展示。 
    曲线展示:运用走势曲线或者ROC曲线进行展示。 
    文字展示:通过语言文字描述进行结果的分析展示,但是不够直观。

     

    5 数据分析的流程 

    5.1 数据获取 
    5.2 数据清洗 
    5.3 分析工具选取 
    5.4 数据分析模型选择 
    5.5 数据处理 
    5.6 处理结果展示 
    5.7 结果数据分析


    DrugAI
    展开全文
  • [入门数据分析的第一堂课] 这是一门为数据分析小白量身打造的课程,你从网络或者公众号收集到很多关于数据分析的知识,但是它们零散不成体系,所以第一堂课首要目标是为你介绍: Ø  什么是数据分析-知其然才知...
  • NumPy数据分析

    万人学习 2019-08-30 15:43:53
    本课程是NumPy数据分析课程,课程从NumPy环境搭建讲起,到最后股票分析项目结束,全程实战讲解了NumPy数据分析的方方面面,内容涵盖:NumPy数组创建、NumPy数组操作、NumPy广播、NumPy字符串、NumPy统计函数、排序、...
  • 如何入门数据分析

    万次阅读 2020-05-16 12:54:41
    如今,大多数公司都意识到数据驱动的商业策略的价值,因此需要有数据分析才能的人来洞察不断收集的信息。随着我们继续将现实世界数字化,对分析师的需求只会增加。 可以了解之前讲解的《数据分析为什么火了》。 如果...
  • 数据分析之数据预处理、分析建模、可视化

    万次阅读 多人点赞 2020-08-08 15:03:21
    概述:简介、思路、发展...数据分析方法:描述统计、假设检验、信度分析、相关分析、方差分析、回归分析、聚类分析、判别分析、主成分分析、因子分析、时间序列分析等; 数据可视化:Excel、PowerBI、Tableau、Python;
  • CDA数据分析师 - 数据分析概述

    千次阅读 2019-03-05 20:54:25
    1、数据分析概述 【领会】 数据分析和数据挖掘的概念 强调商业数据分析中对业务的理解 商业数据分析和预测的本质 数据分析的 8 个层次 大数据对传统小数据分析的拓展 【熟知】 明确数据分析目标及意义 数据...
  • 文章目录内容介绍Python的诞生Python数据分析应用Python的特点Python的安装数据分析师使用Python的基础语法数据分析师使用Python的控制流语句 内容介绍 虽然作为一名数据分析师来说编程不是必备技能,对于不管任何...
  • 简介: 随着云计算的普及和数据分析需求的扩大,数据湖+数据仓库的湖仓一体分析能力成为下一代数据分析系统的核心能力。相对于数据仓库,数据湖在成本、灵活性、多源数据分析等多方面,都有着非常明显的优势。IDC...
  • 数据分析师面试准备

    万次阅读 多人点赞 2017-12-18 13:56:16
    数据分析师面试准备惊醒。突然发现再要一个月就要过年了,过了年再过个两周就三月了。 三月……又到了招聘季。
  • 数据分析-PART2--10大数据分析模型

    万次阅读 多人点赞 2018-07-31 10:00:39
    数据分析-PART0--数据分析综合 数据分析-PART1--数据获取和步骤 数据分析-PART2--10大数据分析模型 数据分析-PART3--数据分析常用指标 数据分析-PART4--数据分析方法 数据分析-PART5--数据分析可视化 数据分析...
  • 【入门基础+轻实战演示】【讲授方式轻松幽默、有趣不枯燥、案例...通过本 课程,学生将懂得pandas、numpy、matplotlib等数据分析工具;通过实战,学生将了解标准的数据分析流程,学会使用可视化的 方法展示数据及结果。
  • Python金融数据分析入门到实战

    万人学习 2019-09-26 17:08:33
    会用Python分析金融数据 or 金融行业会用Python 职场竞争力更高 Python金融数据分析入门到实战 Get√金融行业数据分析必备技能 以股票量化交易为应用场景 完成技术指标实现的全过程 课程选取股票量化交易为应用场景...
  • 数据分析思路

    万次阅读 多人点赞 2018-09-14 16:08:06
    数据分析是在当今每个企业都所需要涉及的一门学科,数据分析的书随便一搜就会有太多教大家如何的去使用。大致能把搜到的书分为两类:第一类讲数据理论统计学相关的,第二类就是数据分析工具应用类型的。而大部分我们...
  • 淘宝双11大数据分析(数据可视化)

    千次阅读 多人点赞 2020-02-27 18:18:08
    这一篇是最终篇,也是展示数据分析之后的结果的一篇。 其他文章: 淘宝双11大数据分析(环境篇) 淘宝双11大数据分析(数据准备篇) 淘宝双11大数据分析(Hive 分析篇-上) 淘宝双11大数据分析(Hive 分析篇-下) ...
  • Matplotlib 数据分析可视化

    万人学习 2019-08-30 15:43:53
    数据分析三剑客,NumPy、Pandas、Matplotlib,本课程是对Matplotlib的讲解,Matplotlib可以是分析的数据可视化,可以更直观的查看数据分析的结果,本课程独辟蹊径,不光教大家如何绘图,例如:饼图、柱状图、条形图...
  • 基于Python的数据分析

    万次阅读 多人点赞 2019-02-25 15:50:02
    下面来介绍一下基于Python的数据分析,主要介绍数据分析的概念、数据分析流程、Python优势、常用模块的用途以及使用 Python进行数据分析的学习方法及步骤; 随着大数据和人工智能时代的到来,网络和信息技术开始...
  • 数据分析报告

    万次阅读 2019-04-16 21:42:44
    数据分析报告到底是什么,有什么用,该怎么写。这个我也不知道,我觉得就可能跟毕业论文相似吧。但想到接下来的工作需要写大量的数据分析报告,就先查一查这个东西吧。 先说一说数据分析报告是干什么的吧。数据分析...
  • 数据分析笔记

    千次阅读 2020-06-29 19:50:22
    数据产业实践至少涉及三个关键环节: 数据业务定义(把一个具体业务问题定义成一个数据可...数据分析与建模(描述统计、数据可视化、回归分析、机器学习)、 数据业务实施(流程改造、产品设计、标准制定等)。 ...
  • 数据分析】最常用的数据分析方法(干货)

    万次阅读 多人点赞 2018-09-25 11:51:54
    目录 方法论和方法有什么区别? 数据分析方法论 1、PEST分析法 2、SWOT分析法 ...数据分析的七个方法 ...很多做数据分析或者刚接触数据分析的小伙伴,不知道怎么做数据分析。一点思路都没有,今天就给大家盘点数...
  • 不懂统计学的数据分析师都不是好的数据分析师,多数的数据分析师课程都讲Python的应用,又不是开发代码敲的那么好有什么用?不学统计的Python数据分析课程都不是好课程,不如抽空多看看统计学的内容。 本文介绍 ...
  • Python数据分析实战-Pandas

    千人学习 2019-12-02 10:54:20
    Pandas包是基于Python平台的数据管理利器,已经成为了Python进行数据分析和挖掘时的数据基础平台和事实上的工业标准,掌握其使用方法,是使用Python进行数据分析和数据挖掘的必备条件。        ...
  • 描述性数据分析

    万次阅读 2018-07-22 16:33:38
    描述性数据分析属于比较初级的数据分析,常见的分析方法包括对比分析法、平均分析法、交叉分析法等。描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据...
  • 不懂统计学的数据分析师都不是好的数据分析师,多数的数据分析师课程都讲Python的应用,又不是开发代码敲的那么好有什么用?不学统计的Python数据分析课程都不是好课程,不如抽空多看看统计学的内容。 本文介绍 ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 3,808,715
精华内容 1,523,486
关键字:

数据分析