精华内容
下载资源
问答
  • Microsoft Office VisioOffice Visio 是...使用具有专业外观的 Office Visio 图表,可以促进对系统和流程的了解,深入了解复杂信息并利用这些知识做出更好的业务决策。Microsoft Office Visio帮助您创建具有专业外...

    Microsoft Office Visio

    Office Visio 是office软件系列中的负责绘制流程图和示意图的软件,是一款便于IT和商务人员就复杂信息、系统和流程进行可视化处理、分析和交流的软件。使用具有专业外观的 Office Visio 图表,可以促进对系统和流程的了解,深入了解复杂信息并利用这些知识做出更好的业务决策。

    Microsoft Office Visio帮助您创建具有专业外观的图表,以便理解、记录和分析信息、数据、系统和过程。

    大多数图形软件程序依赖于结构技能。然而,在您使用 Visio 时,以可视方式传递重要信息就像打开模板、将形状拖放到绘图中以及对即将完成的工作应用主题一样轻松。

    43db010ff243a65df44ec46c68c2e7b7.png

    Visio在画流程图方面的优异表现。

    可以分为:初级两个阶段、中级两个阶段、高级阶段

    我们这里先介绍初级两个阶段,中级、高级后面再介绍。

    初级1:基本流程图

    主要用于创建流程图、顺序图、信息跟踪图、流程规划图和结构预测图,包含了形状、连接线和链接。
    4a7f51a7a5f7091ea6272dd5c7feb415.png

    步骤:

    (1)打开Visio,单击“类别”->“流程图”->“基本流程图”->“创建”

    214c3ff2c37789c319b484e90219e3b5.png

    (2)根据所要展示的流程中的每个步骤,将流程图形状拖到绘图页上

    (3)通过将鼠标指针停在第一个形状上连接流程图形状,然后单击指向形状(想要连接到的形状)出现的小箭头。

    cc8c92b14e02281195d603272c8e413f.png
    • 如果第二个形状不直接通过第一个形状,则单击并按住小箭头,将其拖动到第二个形状,并将连接线拖到第二个形状的中间
    • 若要将文本添加到形状或连接线,请将其选中,然后键入,完成键入后,单击页面的空白区域。
    b776767fa80ec9c237a86a6f0c01304e.png
    • 若要更改连接线箭头的方向,请选中连接线,然后在“形状”选项卡“形状样式”组中单击“线条”,指向“箭头”,选择箭头方向和所需的样式
    fc1204cce5a43df8829509cd68557243.png
    • 也可以自己手动绘制所要的形状和线条

    初级2:跨职能流程图

    显示业务流程和组织或职能单位(如部门)之间的关系,后者负责实施该流程的步骤。
    814045582f7c5c39d122fe05ce1c26c6.png

    步骤:

    (1)打开Visio,单击“类别”->“流程图”->“跨职能流程图”->“创建”

    227a41d3134f7d330fe9bf84fdb7c836.png

    (2)如果出现提示选择水平或垂直泳道方向,然后单击确定

    75f84144d0e6ec04bd71c0095b639696.png

    (3)添加泳道,直接拖动“泳道”形状放到某位置上方或下方即可。

    7caf2718756f106f9934541ce43d5310.png

    (4)若要表示流程中的阶段,将“分隔符”线拖到页面上。

    84aa746271ded8e68eeddeb328620df9.png
    • (5)更改文本。若要标注图表和泳道,单击包含占位符文本的形状,然后键入标签
    • 若要更改的标签文本的方向,单击跨职能流程图选项卡,然后单击在设计组中的旋转通道标签
    e97cf47485121aac28b4209cc74301c2.png
    • (6)添加流程元素、移动分隔符、调整标签大小
    33457fab821ee217e4e3271f5b51b877.png

    如果你想学习更多关于Visio的使用技巧,请持续关注我

    如果你觉得这篇文章有用请转发给更多人

    展开全文
  • 一份好的数据报告可以帮助企业做出正确的商业决策,可以成功获取业务资源,甚至可以给企业带来巨额投资。数据分析有着很多种有效用途,每个行业都在充分利用数据分析。我们常见的数据分析妙用:对消费...

    一份好的数据报告可以帮助企业做出正确的商业决策,可以成功获取业务资源,甚至可以给企业带来巨额投资。数据分析有着很多种有效用途,每个行业都在充分利用数据分析。

    我们常见的数据分析妙用:

    • 对消费者行为进行分析和预测

    • 确定产品优惠的力度

    • 改进活动方式和流程

    • 分析客户需求波动

    • 根据用户习惯推送产品

    数据分析已经成为企业运营至关重要的一环,小编抓取了近 800 份招聘信息,发现很多岗位都开始重视“数据分析”这一技能

    小编在字节跳动的招聘平台发现,字节的人力资源部门已经在搭建人力数据分析,根据业务线不同设置不同的数据分析岗位,岗位细分下职责更清晰,对企业发展也会提出更加完善的建议。       

    无论你是做销售、运营还是策划、产品,甚至财务、人事等其他岗位,均要求具备数据分析能力,但仅仅使用 Excel 已不足以支撑企业海量数据的分析,衡量一个数据分析师最直接的标准就是是否会Python。

    基于此小编整理了一些数据分析学习内容,我把它再次推荐给你!今天只需 0 元就能获得全部资料!免费学习视频+资料文档,并且在学习的过程中,还可以参与我们的系统训练营学习!

    这些【学习内容】,仅供大家交流学习使用,捣乱和发广告的勿加。

    扫码添加CSDN老师

    免费领取学习资料+课程规划

    为什么要用 Python 做数据分析呢?

    举个例子,Excel 做分析的过程:修改数据格式→去除异常数据→插入公式计算→创建数据透视表→复制粘贴数据插入图表→调整结构,每一步都需要用手动点击,如果出现错误,前边很多步骤都需要重新调整,不仅浪费大量时间还非常繁杂。

    用 Python 统一记录方法,当需要修改,特别是重复使用时,只需要调整参数就可以了。而且 Python 有很多可视化的工具,可以做出多种形式的图表,汇报数据会更清晰。

    基于这个思路,我向你推荐CSDN自营课程《数据分析闯关训练营》课程内容覆盖面广,集数据搜集、清洗、整理、可视化与建模于一体,帮你建立数据分析的底层逻辑思维!

    扫码添加CSDN老师

    免费领取学习资料+课程规划

    课程基于Python3落地工作中经常碰到的分析与挖掘方法,教你通过数据分析,找到问题,形成方案,采取行动,反馈评估,形成一个闭环,让你的数据充分发挥业务价值

    课程是怎么规划的?

    #科学、系统的课程设置#

    涵盖市面上所有数据分析工程师工作岗位中会应用到的技术,同时侧重讲解面试中必问、常问的算法面试题。

    #真实刺激的企业项目#

    横跨金融、广告、电商、竞赛、学术实验等真实业务场景项目,在已有课程基础上,实时新增热点技术11大企业级项目实战训练。

    #陪伴你的,还有非常良心的教学服务#

    线上学习、一对一答疑、真实项目练习、定期测试、班主任监督、直播答疑、作业批改,这一切都是为了保证你在 12 周的时间里,跟的上、学的完、学的会。

    除此之外,CSDN 还会邀请一些行业大咖,不定期给学员做闭门分享会,可能仅仅是求职、日常工作中的一点点经验分享,就能让你少走很多弯路。

    优秀学员内推+面试深度指导,助你斩获心仪Offer

    最后,不得不再提一下 CSDN 的大厂内推服务:优秀学员可直接内推,同时再配合多面试官经验的辅导老师进行辅导,提高你的就业率,学完就能把学费赚回来!

    #一线大厂工程师授课#

    BAT、滴滴、网易等一线大厂Leader担任授课导师,结合市场数据挖掘岗位所需深入讲解,直击名企大厂选人倾向。

    #资深猎头推荐指导就业#

    一对一就业方案+简历修改+模拟面试+面试录音复盘+心理辅导+免费指导工作问题直至试用期转正!

    送:50+面试强化专题&200+实际面试题训练

    在求职的过程中,CSDN就像是你的“教练”,在你求职的每个环节,均提供有针对性的助攻服务。

    最后,如果你符合下面的情况中的任意一条,那我十分建议你加入这个训练营

    1.准备从事编程工作,但是不知道选择什么语言好

    2.Python应用方向太多了,不知道该学哪个才适合自己

    3.准备从事Python全栈工程师、AI、数据分析、爬虫等方向,但是底子薄弱,也没人带

    4.准学习前景好、易学,且应用方向广的编程语言

    再次强调一下!最近一期的人才培养计划只有 100 个名额,先到先得!而且还能享受超低价福利优惠!(据说现在仅剩10几个名额了)

    如果你有更多的问题,比如价格、适合不是学习、详细的学习大纲,都可以扫码回复相应的问题。

    扫码添加CSDN老师

    免费领取学习资料+课程规划

    点击阅读原文“领取学习大纲+课程咨询

    展开全文
  • 技巧179 专业条码轻松 技巧180 图片也能玩动态 第7章 绕开图表制作中的误区 技巧181 掌握绘图区的长宽比例 技巧182 不同坐标轴刻度的强调效果 技巧183 慎重选择图表类型 技巧184 恰当使用次坐标轴 技巧185 让图表...
  • 本报告主要针对开放型基金进行大数据分析,...前期数据清洗过程在此不太多阐述。目的是利用数据分析工具,辅助于基金投资,有效地降低基金的投资风险。投资有风险,入市需谨慎,依此报告作出的投资决策,风险自负。

    如果需要转载本文或者需要相关的数据资料,请与我联系。邮箱:18588809730@163.com

    一、目标确定
    本次主要通过对基金进行大数据分析,了解目前开放型基金的现状,同时对基金的评级及回报率等相关数据进行分析,以确定最佳基金投资标的。

    二、数据获取

    数据获取方面,采用数据采集器,对天天基金网及晨星网的数据进行搜集。搜索数据包括基金的基本信息及分红数据,基金的历年收益率数据,基金的评级数据(包括晨星网和证券公司等评级机构的评级数据,数据量总计大约在一万五千条左右。并将数据存放在四个excel文件中,分别存放于divF.xlsx,OpenF.xlsx,RankOpenF.xlsx,tiantianRank.xlsx四个文件,作为数据源。
    数据已经过清洗,其简要情况如下:
    divF.xlsx:
    在这里插入图片描述
    OpenF.xlsx
    在这里插入图片描述
    RankOpenF.xlsx:
    在这里插入图片描述
    tiantianRank.xlsx:
    在这里插入图片描述

    三、数据清洗
    数据清洗会消耗掉大量的时间,主要采用excel和python的相关功能进行,如excel的查找替换,python的dropna()等等。这里不过多描述。

    四、数据整理及分析
    这部分是核心,重点围绕数据整理及描述分析进行,呈现相应的实现代码和相关图表。后续依次生成数据分析报告。算是手把手教你如何用python进行基金的大数据分析了。
    处理前提,导入相应的库:

    import pandas as pd
    import numpy as np
    import matplotlib.pyplot as plt
    import seaborn as sns
    from pyecharts import Bar
    import matplotlib
    matplotlib.matplotlib_fname()  #会显示matplotlibrc文件的地址
    from pyecharts import online
    
    online() # needed for online viewing
    plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
    plt.rcParams['axes.unicode_minus']=False #用来正常显示负号
    #有中文出现的情况,需要u'内容'
    

    第一步,我们对整体的基金收益率进行简单分析,大部分分析思路已经通过注释的形式给出。这里文字点到为止。

    #读入前期通过爬虫采集器采集天天基金网的数据
    openF=pd.read_excel('D:/PythonData/OpenF.xlsx')
    openF.head(3) #查看一下数据是否有异常。
    

    显示如下:
    在这里插入图片描述

    #重命名索引为English name,方便数据处理,上面看到基金代码前面的0没识别,读的时候,把它转为str格式。
    openF=pd.read_excel('D:/PythonData/OpenF.xlsx',converters = {u'基金代码':str}) #
    openF.rename(columns={'序号':'NO.','基金代码':'code','基金简称':'name', '日期':'date','单位净值':'unitnet','累计净值':'sumnet','日增长率':'Dailygrowth','近1周':'Rweek','近1月':'R1month','近3月':'R3months','近6月':'R6months','近1年':'R1year','近2年':'R2years','近3年':'R3years','今年来':'thisyear','成立来':'SinceFounded','手续费':'charges'},inplace=True)
    openF.head(3)
    

    其显示如下:
    在这里插入图片描述

    #删除重复采集的数据序列
    openF.drop_duplicates(inplace=True)
    openF.describe()
    
    #我们希望稳健一点,今年至今的8个月,上证指数差不多回到原点,我们希望基金今年的收益率为正。
    type(openF.Dailygrowth[0]) #查看其均为str类型,需要转换成整数型
    #open_F=openF[{'Dailygrowth','Rweek'}].str.strip('%').astype(float)/100   不可哈希,有毛病,得一个个来
    temp=openF.replace('---',np.nan)
    openF=temp.replace('--',np.nan)
    openF.tail(100)
    openF.dropna(inplace=True) #寻找那些成立3年以上的基金,删除近三年收益率为Nan的基金
    #openF.count()
    

    由于百分数导入为字符串格式,我们需要将其转换为float模式。

    Dailygrowth=openF['Dailygrowth'].str.strip('%').astype(float)/100 
    Rweek=openF['Rweek'].str.strip('%').astype(float)/100 
    R1month=openF['R1month'].str.strip('%').astype(float)/100 
    R3months=openF['R3months'].str.strip('%').astype(float)/100 
    R6months=openF['R6months'].str.strip('%').astype(float)/100 
    R1year=openF['R1year'].str.strip('%').astype(float)/100 
    R2syears=openF['R2years'].str.strip('%').astype(float)/100
    R3years=openF['R3years'].str.strip('%').astype(float)/100
    thisyear=openF['thisyear'].str.strip('%').astype(float)/100
    SinceFounded=openF['SinceFounded'].str.strip('%').astype(float)/100
    charges=openF['charges'].str.strip('%').astype(float)/100 
    
    openF['Dailygrowth']=Dailygrowth
    openF['Rweek']=Rweek
    openF['R1month']=R1month
    openF['R3months']=R3months
    openF['R6months']=R6months
    openF['R1year']=R1year
    openF['R2years']=R2syears
    openF['R3years']=R3years
    openF['thisyear']=thisyear
    openF['SinceFounded']=SinceFounded
    openF['charges']=charges
    

    借助数据化的手段,让我们对基金的整体情况有一个更为直观的把握。可视化有助于我们对数据进行更直观的认识与把握,发现数据规律,洞察一些可能的趋势。
    我们采用了bar来展示。

    #openF.head(5)
    #数据可视化,对数据有一个直观的认识
    openF_charges=openF.groupby('charges').count()
    openF_charges=openF_charges.reset_index()
    openF_charges.head(2)
    
    attr = ["{}".format(i*100)+str('%') for i in openF_charges['charges']]
    #attr = [i for i in openF_charges['charges']]
    v1 = [i for i in openF_charges['code']]
    bar = Bar("开放基金手续费分布图:")
    bar.add("基金数目", attr, v1, xaxis_interval=0, xaxis_rotate=80, yaxis_rotate=50)
    bar
    

    结果如下:
    在这里插入图片描述
    大部分基金的手续费都在0.15%,达到1300只。这也是目前比较正常的手续费,支付宝大部分基金的手续费也在这个区间。

    下面,再利用直方图,对基金的收益率进行分析,有一个直观的认知:我们看到,-20%-40%的三年收益率,是大部分基金的最终归宿。

    plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
    plt.rcParams['axes.unicode_minus']=False #用来正常显示负号
    
    from matplotlib.pyplot import  MultipleLocator  #坐标间隔改变模块
    #ax=plt.gca()  #重新设X坐标间隔
    x_major_locator=MultipleLocator(0.5) #间隔设置为0.5
    ax.xaxis.set_major_locator(x_major_locator)
    
    plt.xlabel(u'基金三年回报收益率区间',fontsize=24)
    plt.ylabel(u'基金个数',fontsize=24)
    plt.hist(openF.R3years,bins=40,range=(-2,3.5),color='orange')
    

    在这里插入图片描述
    同样,对今年的基金收益率进行分析,其实现类似:

    plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
    plt.rcParams['axes.unicode_minus']=False #用来正常显示负号
    #有中文出现的情况,需要u'内容'
    
    ax=plt.gca()  #重新设X坐标间隔
    x_major_locator=MultipleLocator(0.1) #间隔设置为0.5
    ax.xaxis.set_major_locator(x_major_locator)
    
    plt.xlabel(u'今年回报率',fontsize=24)
    plt.ylabel(u'基金个数',fontsize=24)
    plt.hist(openF.thisyear,bins=40,range=(-0.2,1),color='red')
    openF.thisyear.describe()
    

    在这里插入图片描述
    0%-25%的收益率,是今年大部分基金截止到8月取得的成果,整体情况,比去年2018年要好很多。

    #分析两年期回报率
    plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
    plt.rcParams['axes.unicode_minus']=False #用来正常显示负号
    
    ax=plt.gca()  #重新设X坐标间隔
    x_major_locator=MultipleLocator(0.5) #间隔设置为0.5
    ax.xaxis.set_major_locator(x_major_locator)
    
    plt.xlabel(u'基金的2年回报率区间',fontsize=14)
    plt.ylabel(u'基金个数',fontsize=14)
    plt.hist(openF.R2years,bins=40,range=(-1,3),color='red')
    openF.R2years.describe()
    

    基金两年期的收益率如下:-40%-20%的基金占了绝大多数,而这2年最多的基金收益率聚集区间在

    在这里插入图片描述
    下面继续对基金成立以来,其收益率在各个区间的个数进行统计:成立以来,能够翻倍的基金极为少数,极个别基金的收益率达到了20多倍,这非常难得。
    在这里插入图片描述
    紧接着,我们对不同期限,在不同区间的收益率的基数做一下分析,这样有助于合理设定我们的投资收益目标。

    """"此处意在用映射的方式进行收益率范围分类,失败!Series无法被哈希
    R3years_to_Rank={
                          openF.R3years<0:"Bad",
    (0<openF.R3years)   &  (openF.R3years<0.1): "0-10%",
    (0.1<openF.R3years) &  (openF.R3years<0.3):"10%-30%",
    (0.3<openF.R3years) &  (openF.R3years<0.5):"30%-50%",
                            openF.R3years>0.5:">50%"}
    #'Series' objects are mutable, thus they cannot be hashed
    openF['Rank']=openF.map(R3years_to_Rank)
    openF.head() 
    """
    #我们更希望看到回报率的更具体的情况,通过bar可实现,连续数据的离散化。
    #调用cut函数对数据进行处理。pd.cut用于面元划分或离散化。cats=pd.cut(list,bins) bins为传入的区间,可用right=False对右开区间。返回值cats有.levels和label两个。
    #其中,cats.levels返回index类型,如[[1,2],[3,4]],如lcats.labels则返回array,如[0,1]。3.0已更改为cats.codes和cats.categories.
    bins=[openF.R3years.min(),0,0.1,0.3,0.5,1,2,openF.R3years.max()]
    group_names=['负收益率','0-10%','10%-30%','30%-50%','50%-100%','1-2倍','2倍以上']
    cats=pd.cut(openF.R3years,bins,labels=group_names,right=False)
    #print(cats.codes) #无法调用,可能新版本又变了
    #print(cats.categories)
    s1=pd.value_counts(cats)
    attr=s1.index
    v1=s1.values
    bar = Bar("基金3年收益率个数分布图")
    bar.add("基金三年收益率该组个数", attr,v1, xaxis_interval=0, xaxis_rotate=36, yaxis_rotate=0)在这里插入代码片
    

    结果如下:
    在这里插入图片描述
    有783个基金是负收益的。可见,投资基金的风险并不小。同时,10%-30%,加上0-10%的基金个数,也占据了大部分。可见,如果要实现超额收益,选取30%以上的基金,这个难度是相当不小的。
    这两年基金行情,我们再接着分析一下:

    #对2年收益率作出同样处理
    bins=[openF.R2years.min(),0,0.1,0.3,0.5,1,2,openF.R2years.max()]
    group_names=['负收益率','0-10%','10%-30%','30%-50%','50%-100%','1-2倍','2倍以上']
    cats=pd.cut(openF.R2years,bins,labels=group_names,right=False)
    #print(cats.codes) #无法调用,可能新版本又变了
    #print(cats.categories)
    s1=pd.value_counts(cats)
    attr=s1.index
    v1=s1.values
    
    
    bar = Bar("基金2年收益率区间分布图")
    bar.add("基金2年收益率区间该区间个数", attr,v1, xaxis_interval=0, xaxis_rotate=36, yaxis_rotate=0)
    

    在这里插入图片描述
    负收益率排第一,第二是0-10%的收益率。如果没有好的投资基础,还真的不如把钱放银行。30%以上收益的基金,是努力的目标,却需要花费不少的力气。

    我们再对基金成立以来的收益率进行分析,其实更好的分析维度是年化收益,这里就不介绍了。需要结合基金的成立时间进行二次分析,有兴趣的读者可以尝试一下。

    在这里插入图片描述

    #对于集中程度,可以用箱体图进行查看
    sns.set(style="whitegrid")
    ax=plt.gca()  #重新设X坐标间隔
    x_major_locator=MultipleLocator(1) #间隔设置为1
    
    ax.xaxis.set_major_locator(x_major_locator)
    ax = sns.boxenplot(x=openF['SinceFounded'],color='red')
    

    在这里插入图片描述
    有三个点,大于11倍。做数据分析报告时,对这几个基金可以重点拿出来分析一下。

    开始初步地基金进行筛选:

    #选了手续费小于0.15%.节约成本,同时回报率近1年,3年,成立以来都为正,这样可以确保基金的稳定性,有成长的能力和抵御风险的能力。
    #我们希望稳健一点,今年至今的8个月,上证指数差不多回到原点,我们希望基金今年的收益率为正。
    temp=openF[(openF.charges<0.0015)&(openF.R3years>0)&(openF.thisyear>0)&(openF.R1year>0)&(openF.SinceFounded>0)]
    temp.head()
    openF_total=temp  #openF此时保留那些初步具有投资价值的资金
    

    第一步,就到这里暂时结束,主要围绕收益率进行分析。

    下面,进行第二步。第二步主要分析基金的类型分布及晨星评级。晨星评级,我们选取三星以上的基金进行重点分析。

    #另外,爬取了晨星评级3年和5年的投资收益评级均在3星以上的开放基金,其中有基金种类,今年回报率%,基金净值等属性。
    df_R=pd.read_excel('D:/PythonData/RankOpenF.xlsx',converters = {u'code':str})
    df_R['Rthisyear']=df_R.Rthisyear/100
    #df_R=df_R.set_index('code')
    df_R.tail(5) #看一下数据是否正常
    

    数据OK的。
    在这里插入图片描述
    对基金总体情况,结合评级,类型进行可视化分析:

    df_R_category=df_R.category.value_counts()
    df_R_category.index
    
    attr = df_R_category.index
    v1 = df_R_category.values
    bar = Bar("晨星评级均超过3星的基金类型分布")
    bar.add("晨星评级3星以上基金数量", attr, v1, xaxis_interval=0, xaxis_rotate=36, yaxis_rotate=0)
    bar
    

    结果如下图:激进配置型基金和股票型还有激进债券型基金,其质量相对比较好。也有可能与其基数相对比较大有关,这里应该结合比例分析会好。
    在这里插入图片描述
    结合条件,进行筛选,如下:

    #在初步筛选基金数据后,结合晨星评级进行进一步的筛选。可进一步缩小基金的范围。
    print(df_R[df_R.code=='110003'])
    print(openF[openF.code=='110003'])
    df_RF=pd.merge(openF,df_R,on='code') #,suffixes=('_df_R','_openF')
    df_RF_copy=df_RF.copy() #做个数据副本备用
    df_RF.head(1)
    df_RF=df_RF.drop(columns=['date_y','name_y','unitnet_y','Rthisyear']) #删除属性重复列
    df_RF_CX=df_RF
    df_RF_CX.describe()
    

    成立以来,平均收益率为1.57,扎心。如果今年投资晨星网的三星以上评级基金,其期望收益在18.2%,整体而言还是不错的。最大的是翻了2.2倍,最小的亏损了18%。差距不小。
    在这里插入图片描述
    以上是结合晨星网的数据分析,紧接着我们看看分红。

    第三步,考虑分红情况,一般情况下,选择股票考虑分红多一些。基金在这方面的应用不多,尝试做一下验证。但是,整体而言,分红的基金,总比不分红的要好一些。

    
    divF=pd.read_excel('D:/PythonData/divF.xlsx',converters = {'code':str})
    print(divF.head(1))
    #print(divF.describe())
    
    #导入一份基金的分红数据,包括了分红次数还有每份的分红额
    from datetime import datetime
    %matplotlib inline
    plt.rcParams['figure.figsize'] = (30.0, 15.0)
    
    
    divF=pd.read_excel('D:/PythonData/divF.xlsx',converters = {'code':str})
    #print(divF.head(3))
    
    

    数据显示如下:
    在这里插入图片描述
    ,结合发行基金数,我们对基金的历史进行一个简单的回顾,是一件比较有意思的事情:

    
    divF['FoundDate2']=pd.to_datetime(divF['FoundDate'])
    df=divF[['FoundDate2','code']]
    df['Month'] = [datetime.strftime(x,'%Y-%m') for x in df['FoundDate2']]
    df =df.pivot_table(index='Month',aggfunc='count')
    
    fig=plt.figure()
    ax=fig.add_subplot(111)
    
    x_major_locator=MultipleLocator(4)
    ax.xaxis.set_major_locator(x_major_locator)#把x轴的主刻度设置为3的倍数
    
    plt.title('历年基金发布情况汇总及大事件汇总',fontsize=24) #设置图表标题和标题字号
    plt.tick_params(axis='both',which='major',labelsize=16,rotation=45) #设置刻度的字号
    plt.xlabel('基金发布时间',fontsize=18)#设置x轴标签及其字号
    plt.ylabel('当月发布基金数',fontsize=18)#设置x轴标签及其字号
    
    
    #基金大件事:
    
    plt.annotate(u'2001年,中国证监会发布《关于申请设立基金管理公司若干问题的通知》\n 首次引入“好人举手”制度\n首只开放式基金—华安创新发行',
       xy=('2001-04',1),xytext=('2001-04',110), 
       bbox = dict(boxstyle = 'round,pad=0.5',
       fc = 'yellow', alpha = 0.5),
       arrowprops=dict(facecolor='red', 
       shrink=0.05),fontsize=20)
    
    plt.annotate(u'2002年,社保基金管理人“选秀”',
       xy=('2002-08',5),xytext=('2002-08',25), 
       bbox = dict(boxstyle = 'round,pad=0.5',
       fc = 'yellow', alpha = 0.5),
       arrowprops=dict(facecolor='red', 
       shrink=0.05),fontsize=20)
    
    plt.annotate(u'2003年《基金法》获通过,\n 同年年,基金“价值投资”理念首次登场。',
       xy=('2003-08',6),xytext=('2003-08',76), 
       bbox = dict(boxstyle = 'round,pad=0.5',
       fc = 'yellow', alpha = 0.5),
       arrowprops=dict(facecolor='red', 
       shrink=0.05),fontsize=20)
    
    plt.annotate(u'基金法,2004年6月1日起正式实施',
       xy=('2003-12',8),xytext=('2003-12',18), 
       bbox = dict(boxstyle = 'round,pad=0.5',
       fc = 'yellow', alpha = 0.5),
       arrowprops=dict(facecolor='red', 
       shrink=0.05),fontsize=20)
    
    
    plt.annotate(u'2005年,首家银行系基金公司工银瑞信基金成立',
       xy=('2005-04',5),xytext=('2005-04',10), 
       bbox = dict(boxstyle = 'round,pad=0.5',
       fc = 'yellow', alpha = 0.5),
       arrowprops=dict(facecolor='red', 
       shrink=0.05),fontsize=20)
    
    plt.annotate(u'2007年,基金规模爆增,创出3.27万亿的第一个行业巅峰。\n“公奔私”元年,阳光私募大发展。\n然而,QDII初次出海,遭遇次贷风暴',
       xy=('2007-04',12),xytext=('2007-04',52), 
       bbox = dict(boxstyle = 'round,pad=0.5',
       fc = 'yellow', alpha = 0.5),
       arrowprops=dict(facecolor='red', 
       shrink=0.05),fontsize=20)
    
    
    plt.annotate(u'2008年,证监会对基金“老鼠仓”开出处罚第一单',
       xy=('2008-04',14),xytext=('2008-04',25), 
       bbox = dict(boxstyle = 'round,pad=0.5',
       fc = 'yellow', alpha = 0.5),
       arrowprops=dict(facecolor='red', 
       shrink=0.05),fontsize=20)
    
    
    plt.annotate(u'2012年5月,“宏伟”谢幕,震动华夏。同年6月,中国证券投资基金业协会成立',
       xy=('2012-04',16),xytext=('2012-04',75), 
       bbox = dict(boxstyle = 'round,pad=0.5',
       fc = 'yellow', alpha = 0.5),
       arrowprops=dict(facecolor='red', 
       shrink=0.05),fontsize=20)
    
    
    plt.annotate(u'2013年,新《基金法》实施;券商保险等资管机构进军公募。\n同年,余额宝上线,基金业迈进互联网金融时代,\n 基金股权激励破冰,国务院明确个人持股条件',
       xy=('2013-04',20),xytext=('2013-04',108), 
       bbox = dict(boxstyle = 'round,pad=0.5',
       fc = 'yellow', alpha = 0.5),
       arrowprops=dict(facecolor='red', 
       shrink=0.05),fontsize=20)
    
    plt.annotate(u'2017年,首批FOF获批发行\n,公募基金进入资产配置新时代',
       xy=('2017-04',85),xytext=('2017-04',95), 
       bbox = dict(boxstyle = 'round,pad=0.5',
       fc = 'yellow', alpha = 0.5),
       arrowprops=dict(facecolor='red', 
       shrink=0.05),fontsize=20)
    
    plt.annotate(u'2018年,养老目标基金指引正式发布\n,有望引爆基金业新一轮发展大潮。',
       xy=('2018-04',40),xytext=('2018-04',46), 
       bbox = dict(boxstyle = 'round,pad=0.5',
       fc = 'yellow', alpha = 0.5),
       arrowprops=dict(facecolor='red', 
       shrink=0.05),fontsize=20)
    
    
    plt.plot(df.index,df.code)
    
    
    
    plt.show()
    
    
    

    结果如下图,是不是很好玩?
    在这里插入图片描述
    看一下基金分红的情况:

    #coding:utf-8
    import matplotlib.pyplot as plt
    plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
    plt.rcParams['axes.unicode_minus']=False #用来正常显示负号
    #有中文出现的情况,需要u'内容'
    
    ax=plt.gca()
    x_major_locator=MultipleLocator(10) #间隔设置为10
    ax.xaxis.set_major_locator(x_major_locator)
    
    plt.xlabel(u'分红次数',fontsize=14)
    plt.ylabel(u'基金个数',fontsize=14)
    plt.hist(divF.div_count,bins=60,color='brown')
    
    
    
    ax=plt.gca()
    x_major_locator=MultipleLocator(1) #间隔设置为1
    ax.xaxis.set_major_locator(x_major_locator)
    
    plt.xlabel(u'份分红总金额',fontsize=14)
    plt.ylabel(u'基金个数',fontsize=14)
    plt.hist(divF.div_sum,bins=50,color='brown')
    

    在这里插入图片描述
    在这里插入图片描述
    分红次数与分红金额,分红次数绝大部分只有一次,而分红金额均落在0.5元以内的占了约大部分。
    对分红次数进行分区间统计,有如下结果

    bins=[1,2,3,4,5,6,7,8,9,10,11,divF.div_count.max()]
    
    
    group_names=['1次','2次','3次','4次','5次','6次','7次','8次','9次','10次','大于10次']
    
    cats=pd.cut(divF.div_count,bins,labels=group_names,right=True)
    
    s1=pd.value_counts(cats)
    attr=s1.index
    v1=s1.values
    
    bar = Bar("基金成立以来分红次数公布图")
    bar.add("基金在该区间个数", attr,v1, xaxis_interval=0, xaxis_rotate=36, yaxis_rotate=0)
    

    在这里插入图片描述
    分红金额如下:

    bins=[0,0.1,0.2,0.5,0.8,1,2,5,divF.div_sum.max()]
    cats=pd.cut(divF.div_sum,bins,right=False)
    
    s1=pd.value_counts(cats)
    attr=s1.index
    v1=s1.values
    
    bar = Bar("基金成立以来分红金额公布图(单位:元)")
    bar.add("基金在该区间个数", attr,v1, xaxis_interval=0, xaxis_rotate=36, yaxis_rotate=0)
    

    在这里插入图片描述
    可以看得到,一毛钱的分红金额数量是很多的。
    再对数据进行初步筛选,作为这一步的结果,保存起来。如下:

    divF.head(2)
    print(divF.count())
    #分红可能受基金的上市时间影响,但是我们仍希望基金的发红次数大于2次,分红金额位于均值0.32元以上。这样,可以使我们的投资策略更为稳健。
    divF_total=divF[(divF.div_count>2) & (divF.div_sum>0.32)]
    divF_last=divF_total
    print(divF_last.describe())
    

    第四步,我们要结合券商的评级数据进行分析了,评级机构有上海证券,招商证券以及济安金信。

    #读取天天基金网评级数据,如果需要透视数据,excel数据透视图会比较高效一些。
    df_T=pd.read_excel('D:/PythonData/tiantianRank.xlsx',converters = {u'code':str})
    df_T.tail(5) #存在数据空值
    

    结果如下:
    在这里插入图片描述

    charge=df_T['charge'].str.strip('%').astype(float)/100
    df_T['charge']=charge
    #df_T.describe()  #count体现出各项空值数量并一致
    
    #看一下各基金评级公司给出五星评价的分布情况
    df_T.pivot_table(index=['Fivestars_of_count'],aggfunc='count')
    
    #看一下在不同公司的分布
    df_T.pivot_table(index=['Fivestars_of_count'],columns=['Company'],aggfunc='count')
    
    #三个评级公司对不同的基金公司给出的评级分布
    df_T.pivot_table(index=['Company'],columns=['Fivestars_of_count'],aggfunc='count')
    
    #某一家评级公司对各基金公司给出的评价分布情况
    df_T.pivot_table(index=['SHZQ'],columns=['Company'],aggfunc='count',margins_name='Company')
    
    #在数据透视层面,excel可根据透视表直接得出透视图,所以转用excel对基金质量分布,优秀基金公司和优秀基金经理等进行分析。
    
    #在天天基金给出的三家评级机构包括招商证券/上海证券/济安金信,其筛选结果如何,我们看看。其评级已为浮点数,如果选四星以上的也方便运算。
    #目前来看,我们不缺好基金,继续以3个五星评价的严格条件进行筛选。
    df_T.head(2)
    df_T_total=df_T[df_T.Fivestars_of_count==3]
    df_T_total.describe()  #看一下还有52家。不多。
    df_T_last=df_T_total
    
    #最后,才是投资者关心的,大数据支撑之下,哪些基金才是值得投资的。
    #前面我们进行了初步筛选后的基金的DataFrame数据openF_total,这个更多考虑的是收益率与收益稳定性。
    openF_total.describe()
    

    为了保证结构的完整性,这里放上部分Excel数据透视表做成的数据透视图:

    在这里插入图片描述

    在这里插入图片描述

    在这里插入图片描述

    #再结合晨星网的三星以上评级,我们进行二次筛选,也得出了另一个DataFrame,df_RF_CX
    df_RF_CX.describe() #我们看到还有295个基金,对于选择来说,还是有点多。继续利用三家证券评级公司的数据进行帅选。结合晨星网数据后的优良基金。
    
    
    #结合历年分红金额和分红数据,我们还获取了一个DateFrame。divF_total
    divF_last.describe() #一共544个。
    
    #获得三家评级公司均5星评价的基金,如下:
    df_T_last.describe()#一共52家
    

    第五部,就是相当于把以上的结果综合起来了,其最终的文件,我们选择保存在电脑当中。以此结束数据分析这步。

    #最后是见证优质基诞生的时候了。
    df1=pd.merge(df_RF_CX,divF_last,on='code') #结合了收益率,晨星评级还有分红三个因素。
    
    df2=pd.merge(df1,df_T_last,on='code') #在df1的基础上,再加上三大证券公司的评级。
    
    result=df2.T.drop_duplicates().T
    
    WorthyOfInvestment=result.drop(columns=result['name_x']) #看到有些网站对命名显示简称,我们取一列即可。
    
    WorthyOfInvestment.to_excel('D:/PythonData/优质投资基金2019年8月.xlsx')
    

    为避免推荐基金的嫌疑,其最终的结果截取部分如下:除了工银金融地产,其他基金都是老基。经受住了时间的考验,相信以后,还会继续给我们带来惊喜。老基成立以来有2个,更是有10倍的收益率。而2013年相对新的,也有2.4倍收益率。年化15%的复利收益率,很可靠。(得益于这几年金融地产行业股票的股份拉升)。
    在这里插入图片描述
    第五部分 洞察与结论

    在这里,主要描述了分析的流程步骤,还有技术实现。主要分析部分放在数据分析报告,这里做一下简单的分析结论:
    1)今年投基金比去年投基金的收益率要好好多;去年做基金,大概律面临亏损的状况;
    2)期望收益率15%是一个比较难达到的门槛,但是10%左右,按照目前的基金回报率,大概率是可以实现的;负收益率的基金还是不少的,基金经理也不一定专业;
    3)易方达,景顺长城,前海开源这三家公司的基金整体质量都不错;而对于评级而言,结合我们选出来的数据的回报率,至少五星级评级的基金,是我们长期投资的很重要的参考对象;
    4)选择好的基金经理并追踪他的基金,确实可以让我们投资更加安心,好的基金经理,非常重要;
    5)一句话概括投资建议:好基,好基金公司,好基金经理,好时机,好的期望,好的收益率。

    展开全文
  • 数据分析是指利用合适的工具在统计学理论的支撑下,对数据进行一定程度的预处理,然后结合具体业务分析数据,帮助相关业务部门监控、定位、分析、解决问题,从而帮助企业高效决策,提高经营效率,发现业务机会点,让...

    入门篇

    通过入门篇的学习,你会对数据分析有一个宏观的认识,知道数据分析到底在分析什么,为什么要做数据分析,以及做了数据分析有什么好处。

    第1章 数据分析基础

    1.1 数据分析是什么

    数据分析是指利用合适的工具在统计学理论的支撑下,对数据进行一定程度的预处理,然后结合具体业务分析数据,帮助相关业务部门监控、定位、分析、解决问题,从而帮助企业高效决策,提高经营效率,发现业务机会点,让企业获得持续竞争的优势。

    1.2 为什么要做数据分析

    在做一件事情之前我们首先得弄清楚为什么要做,或者说做了这件事以后有什么好处,这样我们才能更好地坚持下去。

    啤酒和尿布的问题大家应该都听过,如果没有数据分析,相信大家是怎么也不会发现买尿布的人一般也会顺带买啤酒,现在各大电商网站都会卖各种套餐,相关商品搭配销售能大大提高客单价,增加收益,这些套餐的搭配都是基于历史用户购买数据得出来的。如果没有数据分析,可能很难想到要把商品搭配销售,或者不知道该怎么搭配。

    谷歌曾经推出一款名为“谷歌流感趋势”的产品,这款产品能够很好地预测流感这种传染疾病的发生时间。这款产品预测的原理就是,某一段时间内某些关键词的检索量会异常高,谷歌通过分析这些检索量高的关键词发现,这些关键词,比如咳嗽、头痛、发烧都是一些感冒/流感症状,当有许多人都搜索这些关键词时,说明这次并非一般性感冒,极有可能是一场带有传染性的流感,这个时候就可以及时采取一些措施来防止流感的扩散。

    虽然谷歌流感趋势预测最终以失败告终,但是这个产品的整体思路是值得借鉴的。感兴趣的读者可以上网查一下它的始末。

    数据分析可以把隐藏在大量数据背后的信息提炼出来,总结出数据的内在规律。代替了以前那种拍脑袋、靠经验做决策的做法,因此越来越多的企业重视数据分析。具体来说,数据分析在企业日常经营分析中有三大作用,即现状分析、原因分析、预测分析。

    1.2.1 现状分析

    现状分析可以告诉你业务在过去发生了什么,具体体现在两个方面。

    第一,告诉你现阶段的整体运营情况,通过各个关键指标的表现情况来衡量企业的运营状况,掌握企业目前的发展趋势。

    第二,告诉你企业各项业务的构成,通常公司的业务并不是单一的,而是由很多分支业务构成的,通过现状分析可以让你了解企业各项分支业务的发展及变动情况,对企业运营状况有更深入的了解。

    现状分析一般通过日常报表来实现,如日报、周报、月报等形式。

    例如,电商网站日报中的现状分析会包括订单数、新增用户数、活跃率、留存率等指标同比、环比上涨/下跌了多少。如果将公司的业务划分为华北、东北、华中、华东、华南、西南、西北几个片区,那么通过现状分析,你可以很清楚地知道哪些区域做得比较好,哪些区域做得比较差。

    1.2.2 原因分析

    原因分析可以告诉你某一现状为什么会存在。

    经过现状分析,我们对企业的运营情况有了基本了解,知道哪些指标呈上升趋势,哪些指标呈下降趋势,或者是哪些业务做得好,哪些做得不好。但是我们还不知道那些做得好的业务为什么会做得好,做得差的业务的原因又是什么?找原因的过程就是原因分析。

    原因分析一般通过专题分析来完成,根据企业运营情况选择针对某一现状进行原因分析。

    例如,在某一天的电商网站日报中,某件商品销量突然大增,那么就需要针对这件销量突然增加的商品做专题分析,看看是什么原因促成了商品销量大增。

    1.2.3 预测分析

    预测分析会告诉你未来可能发生什么。

    在了解企业经营状况以后,有时还需要对企业未来发展趋势做出预测,为制订企业经营目标及策略提供有效的参考与决策依据,以保证企业的可持续健康发展。

    预测分析一般是通过专题分析来完成的,通常在制订企业季度、年度计划时进行。

    例如,通过上述的原因分析,我们就可以有针对性地实施一些策略。比如通过原因分析,我们得知在台风来临之际面包的销量会大增,那么我们在下次台风来临之前就应该多准备一些面包,同时为了获得更多的销量做一系列准备。

    1.3 数据分析究竟在分析什么

    数据分析的重点在分析,而不在工具,那么我们究竟该分析什么呢?

    1.3.1 总体概览指标

    总体概览指标又称统计绝对数,是反映某一数据指标的整体规模大小,总量多少的指标。

    例如,当日销售额为60万元,当日订单量为2万,购买人数是1.5万人,这些都是概览指标,用来反映某个时间段内某项业务的某些指标的绝对量。

    我们把经常关注的总体概览指标称为关键性指标,这些指标的数值将会直接决定公司的盈利情况。

    1.3.2 对比性指标

    对比性指标是说明现象之间数量对比关系的指标,常见的就是同比、环比、差这几个指标。

    同比是指相邻时间段内某一共同时间点上指标的对比,环比就是相邻时间段内指标的对比;差就是两个时间段内的指标直接做差,差的绝对值就是两个时间段内指标的变化量。

    例如,2018年和2017年是相邻时间段,那么2018年的第26周和2017年的第26周之间的对比就是同比,而2018年的第26周和第25周的对比就是环比。

    1.3.3 集中趋势指标

    集中趋势指标是用来反映某一现象在一定时间段内所达到的一般水平,通常用平均指标来表示。平均指标分为数值平均和位置平均。例如,某地的平均工资就是一个集中趋势指标。

    数值平均是统计数列中所有数值平均的结果,有普通平均数和加权平均数两种。普通平均的所有数值的权重都是1,而加权平均中不同数值的权重是不一样的,在算平均值时不同数值要乘以不同的权重。

    假如你要算一年中每月的月平均销量,这个时候一般就用数值平均,直接把12个月的销量相加除以12即可。

    假如你要算一个人的平均信用得分情况,由于影响信用得分的因素有多个,而且不同因素的权重占比是不一样的,这个时候就需要使用加权平均。

    位置平均是基于某个特殊位置上的数或者普遍出现的数,即用出现次数最多的数值来作为这一系列数值的整体一般水平。基于位置的指标最常用的就是中位数,基于出现次数最多的指标就是众数。

    众数是一系列数值中出现次数最多的数值,是总体中最普遍的值,因此可以用来代表一般水平。如果数据可以分为多组,则为每组找出一个众数。注意,众数只有在总体内单位足够多时才有意义。

    中位数是将一系列值中的每一个值按照从小到大顺序排列,处于中间位置的数值就是中位数。因为处于中间位置,有一半变量值大于该值,一半小于该值,所以可以用这样的中等水平来表示整体的一般水平。

    1.3.4 离散程度指标

    离散程度指标是用来表示总体分布的离散(波动)情况的指标,如果这个指标较大,则说明数据波动比较大,反之则说明数据相对比较稳定。

    全距(又称极差)、方差、标准差等几个指标用于衡量数值的离散情况。

    全距:由于平均数让我们确定一批数据的中心,但是无法知道数据的变动情况,因此引入全距。全距的计算方法是用数据集中最大数(上界)减去数据集中最小数(下界)。

    全距存在的问题主要有两方面。

    ● 问题1,容易受异常值影响。

    ● 问题2,全距只表示了数据的宽度,没有描述清楚数据上下界之间的分布形态。

    对于问题1我们引入四分位数的概念。四分位数将一些数值从小到大排列,然后一分为四,最小的四分位数为下四分位数,最大的四分位数为上四分位数,中间的四分位数为中位数。

    对于问题2我们引入了方差和标准差两个概念来衡量数据的分散性。

    方差是每个数值与均值距离的平方的平均值,方差越小说明各数值与均值之间的差距越小,数值越稳定。

    标准差是方差的开方,表示数值与均值距离的平均值。

    1.3.5 相关性指标

    上面提到的几个维度是对数据整体的情况进行描述,但是我们有的时候想看一下数据整体内的变量之间存在什么关系,一个变化时会引起另一个怎么变化,我们把用

    来反映这种关系的指标叫做相关系数,相关系数常用r来表示。

    其中,Cov(X,Y)为X与Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差。

    关于相关系数需要注意以下几点。

    ● 相关系数r的范围为[-1,1]。

    ● r的绝对值越大,表示相关性越强。

    ● r的正负代表相关性的方向,正代表正相关,负代表负相关。

    1.3.6 相关关系与因果关系

    相关关系不等于因果关系,相关关系只能说明两件事情有关联,而因果关系是说明一件事情导致了另一件事情的发生,不要把这两种关系混淆使用。

    例如,啤酒和尿布是具有相关关系的,但是不具有因果关系;而流感疾病和关键词检索量上涨是具有因果关系的。

    在实际业务中会遇到很多相关关系,但是具有相关关系的两者不一定有因果关系,一定要注意区分。

    1.4 数据分析的常规流程

    我们再来回顾一下数据分析的概念,数据分析是借助合适的工具去帮助公司发现数据背后隐藏的信息,对这些隐藏的信息进行挖掘,从而促进业务发展。基于此,可以将数据分析分为以下几个步骤。

    1.4.1 熟悉工具

    数据分析是利用合适的工具和合适的理论挖掘隐藏在数据背后的信息,因此数据分析的第一步就是要熟悉工具。工欲善其事,必先利其器,只有熟练使用工具,才能更好地处理数据、分析数据。

    1.4.2 明确目的

    做任何事情都要目的明确,数据分析也一样,首先要明确数据分析的目的,即希望通过数据分析得出什么。例如,希望通过数据分析发现流失用户都有哪些特征,希望通过数据分析找到销量上涨的原因。

    1.4.3 获取数据

    目的明确后我们就要获取数据,在获取数据之前还需要明确以下几点。

    ● 需要什么指标。

    ● 需要什么时间段的数据。

    ● 这些数据都存在哪个数据库或哪个表中。

    ● 怎么提取,是自己写Sql还是可以直接从ERP系统中下载。

    1.4.4 熟悉数据

    拿到数据以后,我们要去熟悉数据,熟悉数据就是看一下有多少数据,这些数据是类别型还是数值型的;每个指标大概有哪些值,这些数据能不能满足我们的需求,如果不够,那么还需要哪些数据。

    获取数据和熟悉数据是一个双向的过程,当你熟悉完数据以后发现当前数据维度不够,那就需要重新获取;当你获取到新的数据以后,需要再去熟悉,所以获取数据和熟悉数据会贯穿在整个数据分析过程中。

    1.4.5 处理数据

    获取到的数据是原始数据,这些数据中一般会有一些特殊数据,我们需要对这些数据进行提前处理,常见的特殊数据主要有以下几种。

    ● 异常数据。

    ● 重复数据。

    ● 缺失数据。

    ● 测试数据。

    对于重复数据、测试数据我们一般都是做删除处理的。

    对于缺失数据,如果缺失比例高于30%,那么我们会选择放弃这个指标,即做删除处理。而对于缺失比例低于30%的指标,我们一般进行填充处理,即使用0、均值或者众数等进行填充。

    对于异常数据,需要结合具体业务进行处理,如果你是一个电商平台的数据分析师,你要找出平台上的刷单商户,那么异常值就是你要重点研究的对象了;假如你要分析用户的年龄,那么一些大于100或者是小于0的数据,就要删除。

    1.4.6 分析数据

    分析数据主要围绕上节介绍的数据分析指标展开。在分析过程中经常采用的一个方法就是下钻法,例如当我们发现某一天的销量突然上涨/下滑时,我们会去看是哪个地区的销量上涨/下滑,进而再看哪个品类、哪个产品的销量出现上涨/下滑,层层下钻,最后找到问题产生的真正原因。

    1.4.7 得出结论

    通过分析数据,我们就可以得出结论。

    1.4.8 验证结论

    有的时候即使是通过数据分析出来的结论也不一定成立,所以我们要把数据分析和实际业务相联系,去验证结论是否正确。

    例如,做新媒体数据分析,你通过分析发现情感类文章的点赞量、转发量更高,这只是你的分析结论,但是这个结论正确吗?你可以再写几篇情感类文章验证一下。

    1.4.9 展示结论

    我们在分析出结论,并且结论得到验证以后就可以把这个结论分享给相关人员,例如领导或者业务人员。这个时候就需要考虑如何展示结论,以什么样的形式展现,这就要用到数据可视化了。

    1.5 数据分析工具:Excel与Python

    数据分析都是围绕常规数据分析流程进行的,在这个流程中,我们需要选择合适的工具对数据进行操作。

    例如,导入外部数据。如果用Excel实现,那么直接单击菜单栏中的数据选项卡(如下图所示),然后根据外部数据的格式选择不同格式的数据选项即可实现。

    如果用Python实现,那么需要编写如下代码进行数据导入,即你要根据文件的格式选择不同的代码,来导入不同格式的本地文件。

    通过这个简单的例子,我们可以看到,同一个操作可以使用不同的工具实现,不同工具的实现方式是不一样的,Excel 是通过鼠标点选的方式来操作数据,而 Python需要通过具体的代码来操作数据。虽然两者的操作方式是不一样的,但都可以达到导入外部数据这一操作的目的。Python在数据分析领域只不过是和Excel类似的一个数据分析工具而已。

    本书的编写都是按照这种方式进行的,针对数据分析中的每一个操作,分别用Excel和Pyhon对比实现。

     

    相关链接:《对比Excel,轻松学习Python数据分析》

    展开全文
  • 对于“线性规划”这个词相信大家并不陌生,它是在运筹学中发展较早、应用较广的一种方法,意在合理利用资源做出最优决策。今天就让我们来学一下它吧!一、线性规划三要素在线性规划的时候一定要明确三个要素,它们...
  • 任务51: 利用Excel自带功能抓取网页数据 任务52: VBA编程实现抓取网页源代码 任务53: VBA编程实现获取网页表格写入数据表 第6章: MySQL数据库安装、配置与可视化工具 任务54: 安装MySQL 任务55: 使用CMD登录...
  • 个人决策是动态的,而个人的分析环境一般是个人的电脑,常使用EXCEL进行。EXCEL有很多优点: 提供自主性:分析师可以自由的利用任何公式录入任何数据并且随时进行更改 速成:公式化和结构化处理,不需要学习工具...
  • 数据报表成了企业做决策的“依托”,就好像将军要打仗,需要战略分析人员先做一份战略。数据可视化管理价值价值日益凸显。 数据可视化管理价值: 1.采集数据多,分析的更精准 随着企业规模的扩大、生产数据的增加...
  • 本软件为用户提供60多个可直接在单元格内使用的面向平纵横几何坐标转换数据处理等八大类专业计算函数,再利用EXCEL灵活强大的公式编辑功能,让用户可以高度灵活的自定义计算和绘图流程,真正做到您的软件您做主,您...
  • 针对问题(一)采用了层次分析方法来构建合理的评价指标体系进而建立数学模型,求解到一致性比率小于0.1则一致性检验通过,得到的权向量就可以作为最终决策的依据。 针对问题(二)为使病床的使用效率尽可能高,在...
  • asp.net知识库

    2015-06-18 08:45:45
    利用反射实现ASP.NET控件和数据实体之间的双向绑定,并且在客户端自动验证输入的内容是否合法 asp.net报表解决方法 SQLDMO类的使用 SQL过程自动C#封装,支持从表到基本存储过程生成 使用SQLDMO控制 SQL Server 使用SQL...
  • 2019数据运营思维导图

    2019-03-29 21:34:09
    作用 精准营销 分析产品潜在用户,针对特定群体利用短信、邮件等方式进行营销 用户统计 如购买某类书籍人数 TOP10 数据挖掘 定义 把散乱数据转换成有价值信息的过程 效果评估 完善产品运营,提升服务质量 其实这也就...
  • 数据运营思维导图

    2018-04-26 14:24:22
    分析产品潜在用户,针对特定群体利用短信、邮件等方式进行营销 用户统计 如购买某类书籍人数 TOP10 数据挖掘 定义 把散乱数据转换成有价值信息的过程 效果评估 完善产品运营,提升服务质量 其实这也就相当于...
  • 根据添加时设置的提醒条件到时系统会自动弹出提示窗口,以便及时提醒员工需要处理的任务,此功能的应用大大减少了漏工作的事情发生,将宝贵的资源达到合理安排,充份利用的效果,减少员工冗余记忆的功能。...
  • 仿美萍房产中介管理系统源码20110803

    热门讨论 2011-08-03 16:47:05
    根据添加时设置的提醒条件到时系统会自动弹出提示窗口,以便及时提醒员工需要处理的任务,此功能的应用大大减少了漏工作的事情发生,将宝贵的资源达到合理安排,充份利用的效果,减少员工冗余记忆的功能。...
  • 会计理论考试题

    2012-03-07 21:04:40
    A、WPS、DOS、Lotusl-2-3 B、WIndows95、Word、Excel C、UNIX、AutoCAD、PoewPoint D、Word、Lotus 1-2-3、AutoCAD 17.编译软件属于 ___C___ 。 A、数据库管理系统 B、工具软件 C、系统软件 D、应用软件 18.计算机...
  • LINGO软件的学习

    2009-08-08 22:36:50
    为此,LINGO为用户提供了两个可选部分:输入集成员和数据的数据部分(Data Section)和为决策变量设置初始值的初始部分(Init Section)。 3.1 模型的数据部分 3.1.1 数据部分入门 数据部分提供了模型相对静止部分...
  • 千里马酒店前台管理系统V7使用手册

    热门讨论 2011-06-16 14:09:38
    千里马V7.2采用MS-SQL SERVER 2000数据库系统,并充分利用了数据索引、查询优化、穿透查询等技术,为酒店业务处理提供了很好的稳定性和性能,保证了酒店在业务繁忙时段和高数据吞吐量时仍能使电脑系统的运作保持畅通...

空空如也

空空如也

1 2
收藏数 22
精华内容 8
关键字:

利用excel做决策