数据分析_数据分析师 - CSDN
数据分析 订阅
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。 [1]  数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据分析得以推广。数据分析是数学与计算机科学相结合的产物。 [2] 展开全文
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。 [1]  数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据分析得以推广。数据分析是数学与计算机科学相结合的产物。 [2]
信息
数据也称
观测值,实验、测量、观察结果
外文名
Data Analysis
中文名
数据分析
目    的
最大化地开发数据的功能
数据分析简介
数据分析指用适当的统计、分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。 [2]  数据也称为观测值,是实验、测量、观察、调查等的结果。数据分析中所处理的数据分为定性数据和定量数据。只能归入某一类而不能用数值进行测度的数据称为定性数据。定性数据中表现为类别,但不区分顺序的,是定类数据,如性别、品牌等;定性数据中表现为类别,但区分顺序的,是定序数据,如学历、商品的质量等级等。 [1] 
收起全文
精华内容
参与话题
  • [入门数据分析的第一堂课] 这是一门为数据分析小白量身打造的课程,你从网络或者公众号收集到很多关于数据分析的知识,但是它们零散不成体系,所以第一堂课首要目标是为你介绍: Ø 什么是数据分析-知其然才...
  • Python数据分析与挖掘

    万人学习 2020-08-20 10:09:26
    从海量数据中获得别人看不见的信息,创业者可以通过数据分析来优化产品,营销人员可以通过数据分析改进营销策略,产品经理可以通过数据分析洞察用户习惯,金融从业者可以通过数据分析规避投资风险,程序员可以通过...
  • 数据分析基础面试题

    千次阅读 多人点赞 2020-01-04 15:08:49
    数据分析 1.同比与环比表示什么 同比:与历史同时期比较,就是与不同年份的同一时期作比较 例如:2019年7月份与2018年7月分相比 环比:与上一统计段比较,就是与前一个相邻的时期作比较 例如:2019年7月分与...

    数据分析

    1.同比与环比表示什么

    • 同比:与历史同时期比较,就是与不同年份的同一时期作比较
      • 例如:2019年7月份与2018年7月分相比
    • 环比:与上一统计段比较,就是与前一个相邻的时期作比较
      • 例如:2019年7月分与2019年6月份相比

    2.阐述一个数据分析的主要流程(例子:航空客户价值分析)

    ​ 业务系统 ——> 数据抽取 ——> 数据探索与预处理 ——> 建模&应用 ——> 结果&反馈

    在这里插入图片描述

    3.如何进行异常值处理

    ​ 在数据预处理时,异常值是否剔除,需视具体情况而定,因为有些异常值可能蕴含着有用的信息。

    异常值处理方法 方法描述
    删除含有异常值的记录 直接将含有异常值的记录删除
    视为缺失值 将异常值视为缺失值,利用缺失值处理的方法进行处理
    平均值修正 可用前后两个观测的平均值修正该异常值
    不处理 直接在具有异常值的数据上进行挖掘建模

    4.什么是数据规约?如何进行数据规约

    ​ 在大数据集上进行复杂的数据分析和挖掘需要很长的时间,数据规约产生更小但保持原数据完整性的新数据集。在规约后的数据集上进行分析和挖掘将更有效率

    ​ 数据规约的意义在于:

    -  降低无效、错误数据对建模的影响,提高建模的准确性
    
    • 少量且具有代表性的数据将大幅缩减数据挖掘所需的时间
    • 降低储存数据的成本

    数据规约分为属性规约和数值规约

    属性规约常用的方法

    属性规约方法 方法描述 方法解析
    合并属性 将一些旧属性合为新属性 初始属性集:{A1,A2,A3,B1,B2,C}
    {A1,A2,A3} ——>A
    {B1,B2} ——>B
    ---->规约后属性集:{A,B,C}
    逐步向前选择 从一个空属性集开始,每次从原来属性集合中选择一个当前最优的属性添加到当前属性子集中。直到无法选择出最优属性或满足一定阈值约束为止 初始属性集:{A1,A2,A3,A4,A5,A6}
    {} —>{A1} —>{A1,A4}
    ---->约束后属性集:{A1,A4,A6}
    逐步向后选择 从一个空属性集开始,每次从当前属性子集中选择一个当前最差的属性并将其从当前属性子集中消去,直到无法选择出最差属性为止或满足一定阈值约束为止 初始属性集:{A1,A2,A3,A4,A5,A6}
    —>{A1,A3,A4,A5,A6}—>{A1,A4,A5,A6}
    ---->约束后属性集:{A1,A4,A6}
    决策数归纳 利用决策树的归纳方法对初始数据进行分类归纳学习,获得一个初始决策树,所有没有出现在这个决策树上的属性均可认为是无关属性,因此将这些属性从初始集合中删除,就可以获得一个较优的属性子集 初始属性集:{A1,A2,A3,A4,A5,A6}
    在这里插入图片描述
    ---->规约后属性集:{A1,A4,A6}
    主成分分析 用较少的变量去解释原始数据中的大部分变量,即将许多相关性很高的变量转换为彼此相互独立或并不相关的变量

    数值规约

    ​ 数值规约指通过选择代替的、较小的数据来减少数据量,包括有参数方法和无参数方法两类。有参数方法是使用一个模型来评估数据,只需存放参数,而不需要存放实际数据,例如回归(线性回归和多元回归)和对数线性模型(近似离散属性集中的多维概率分布)。无参数方法就需要存放实际数据,例如:直方图、聚类、抽样(采样)

    • 直方图

      直方图使用分箱来近似数据分布,是一种流行的数据规约形式。属性A的直方图将A的数据分布划分为不相交的子集或桶。如果每个桶只代表单个属性值/频率对,则该桶称为单桶。通常,桶表示给定属性的一个连续区间。例如:
      在这里插入图片描述

    • 聚类

      聚类技术将数据元组(即记录,数据表中的一行)视为对象。它将对象划分为簇,使一个簇中的对象相互’相似’,而与其他簇中的对象’相异’。在数据规约中,用数据的簇替换实际数据。该技术的有效性依赖于簇的定义是否符合数据的分布性质。

    • 抽样

      抽样也是一种数据规约技术,它用比原始数据小得多的随机样本(子集)表示原始数据集。假定原始数据集D包含N个元组,可以采用抽样方法对D进行抽样。下面介绍常用的抽样方法。

      • s个样本无放回简单随机抽样:从D的N个元组中抽取s个样本(s<N),其中D中任意元组被抽取的概率为1/N,即所有元组的抽取是等可能的。
      • s个样本有放回简单随机抽样:该方法类似于无放回简单随机抽样,不同在于每次一个元组从D中抽取后,记录它,然后放回原处。
      • 聚类抽样:如果D中的元组放入M个互不相交的簇,则可以得到s个簇的简单随机抽样,其中s<M。例如,数据库中元组通常一次检索一页,这样每页就可以视为一个簇。
      • 分层抽样:如果D划分成互不相交的部分 ,称作层,则通过对每一层的简单随机抽样就可以得到D的分层样本。例如,可以得到关于顾客数据的一个分层样本,按照顾客的每个年龄创建分层。

      用于数据规约时,抽样最常用来估计聚集查询的结果。在指定的误差范围内,可以确定(使用中心极限定理)估计一个给定的函数所需的样本大小。通常样本的大小s相对于N非常小。而通过简单的增加样本大小,这样的集合可以进一步求精。

    • 参数回归

      简单线性模型和对书性模型可以用来近似描述给定的数据。(简单)线性模型对数据建模,使之拟合一条直线。

    5. pandas如何进行两个表的合并?内连接、外连接、左连接、右连接查询有什么区别?

    ​ pandas提供了一个类似于关系数据库的连接(join)操作方法merge,可以根据一个或多个键将不同DataFrame中的行连接起来,语法:

    merge(left, right, how='inner', on=None, left_on=None, right_on=None,
    		left_index=False, right_index=False, sort=True,
    		suffixes=('_x', '_y'), copy=True, indecator=False)
    
    • left与right:两个不同的Dataframe

    • how:指的是合并(连接)的方式,有inner(内连接)、left(左外连接)、right(右外连接)、outer(完全外连接)

    • on:指的是用于连接的列索引名称。必须存在左右两个DataFrame对象中,如果每有指定且其他也未指定则以两个DataFrame的列名交集作为连接键

    • left_index/right_index:使用左/右侧DataFrame中的行索引作为连接键

      以上几个参数使常用到的

    不同连接之间的区别

    - 内连接(pd.merge(left, right, on='xxx')):统计重叠的键并,没有重叠的就不记录
    - 左连接(pd.merge(left, right, how='left',  on='xxx')):以左表为主,在右表中找与左表xxx列数据形同的,没有为NaN
    - 右连接(pd.merge(left, right, how='right', on='xxx')):以右表为主,在左表中找与右表xxx列数据形同的,没有为NaN
    - 外连接(pd.merge(left, right, how='outer', on='xxx')):两张表数据全部统计,没有的为NaN
    

    6. 为什么要进行数据规范化?标准规范化的计算公式是什么?

    ​ 数据规范化处理是数据挖掘的一项基础工作。不同评价指标往往具有不同的量纲,数值间的差别可能很大,不进行处理可能会影响到数据到数据分析的结果。为了消除指标之间的量纲和取值范围差异的影响,需要进行标准化处理,将数据按照比例进行缩放,使之落入一个特定的区域,便于进行综合分析。

    • 最大-最小规范化

      对原始数据的线性变换,将数值值映射到[0,1]之间,公式:

    在这里插入图片描述

    • 零-均值规范化(最常用)

      也称标准差标准化,经过处理的数据的均值为0,标准差为1,公式:

    在这里插入图片描述

    σ为原始数据的标准差

    • 小数定标规范化

      通过移动属性值的小数位数,将属性值映射到[-1,1]之间,移动的小数位数取决于属性值绝对值的最大值,公式:

    在这里插入图片描述

    7. 有哪些缺失值处理方法

    ​ 处理缺失值的方法可分为3类:删除记录、数据插补和不处理。

    • 数据插补

      插补方法 方法描述
      均值/中位数/众数插补 根据属性值的类型,用该属性值的平均数/中位数/众数进行插补
      使用固定值 将缺失的属性值用一个常量替换
      最近临插补 在记录中找到与缺失样本最接近的样本的该属性值插补
      回归方法 对带有缺失值的变量,根据已有数据和与其有关的其他变量(因变量)的数据建立拟合模型来预测缺失的属性值
      插值法 插值法是利用已知点建立合适的插值函数f(x),未知值由对应点xi求出的函数值f(xi)近似代替
    • 删除小部分记录如果能达到既定目标,那么删除含有缺失值的记录是最有效的,但是该方法有很大的局限性,这是以减少历史数据来换取数据的完备,会浪费大量资源。尤其是在数据比较少的情况下,删除少量记录可能会严重影响到分析结果的客观性和正确性。

    8. 统计量分析中有哪些常见的统计量,列出计算方法。

    ​ 用统计指标对定量数据进行统计描述,常从集中趋势和离中趋势两个方面进行分析。

    ​ 平均水平的指标是对个体集中趋势的度量,使用最广泛的是均值和中位数;反应变异程度的指标是对个体离开平均水平的度量,使用较广泛的是标准差(方差)、四分位间距。

    1. 集中趋势度量

    • 均值

      均值是所有数据的平均值

      如果求n个原始观察数据的平均数,计算公式:

    在这里插入图片描述
    加权均值的公式:

    在这里插入图片描述

    频率分布表的平均数计算公式:
    在这里插入图片描述

    作为一个统计量,均值的主要问题是对极端值很敏感。如果数据中存在极端值或者数据是偏态分布的,那么均值就不能很好的度量数据的集中趋势。为了消除少数极端值的影响,可以使用截断均值或者中位数来度量数据的集中趋势。截断均值是去掉高、低极端值之后的平均数。

    • 中位数

      中位数时将一组观察值从小到大的顺序排列,位于中间的那个数。

      当总数为奇数时:

    在这里插入图片描述

    为偶数时:

    在这里插入图片描述

    • 众数

      众数是指数据集中出现最频繁的值。众数并不经常用来度量定性变量的中心位置,更适用于定性变量。众数不具有唯一性。当然,众数一般用于离散型变量而非连续性变量。

    2. 离中趋势度量

    • 极差:最大值 - 最小值

    • 标准差:在这里插入图片描述

    • 变异系数

      变异系数度量标准差相对于均值的离中趋势,计算公式:

    在这里插入图片描述

    变异系数主要用来比较两个或多个具有不同单位或者不同波动幅度的数据集的离中趋势。

    • 四分位数间距

      四分位数包括上四分位数和下四分位数。将所有数值由大到小排列并分成四等分,处于第一个分割点位置的数值是下四分位数,处于第二个分割点位置的数值是中位数,处于第三个分割点位置的数值是上四分位数。

      [外链图片转存中…(img-fNT6LohT-1578120951598)]

      变异系数主要用来比较两个或多个具有不同单位或者不同波动幅度的数据集的离中趋势。

    • 四分位数间距

      四分位数包括上四分位数和下四分位数。将所有数值由大到小排列并分成四等分,处于第一个分割点位置的数值是下四分位数,处于第二个分割点位置的数值是中位数,处于第三个分割点位置的数值是上四分位数。

      四分位数间距,是上四分位数于下四分位数之差,其间包含了全部观察值的一半。其值越大,说明数据的变异程度越大;反之,说明变异程度越小。

    展开全文
  • 16种常用的数据分析方法汇总

    万次阅读 多人点赞 2017-04-04 16:16:33
    经常会有朋友问到一个朋友,数据分析常用的分析方法有哪些,我需要学习哪个等等之类的问题,今天数据分析精选给大家整理了十六种常用的数据分析方法,供大家参考学习。 一、描述统计 描述性统计是指运用制表和...

    经常会有朋友问到一个朋友,数据分析常用的分析方法有哪些,我需要学习哪个等等之类的问题,今天数据分析精选给大家整理了十六种常用的数据分析方法,供大家参考学习。

    一、描述统计

    描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。

    1、缺失值填充:常用方法:剔除法、均值法、最小邻居法、比率回归法、决策树法。

    2、正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以之前需要进行正态性检验。常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。

    二、假设检验

    1、参数检验

    参数检验是在已知总体分布的条件下(一股要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验 。

    1)U验   使用条件:当样本含量n较大时,样本值符合正态分布

    2)T检验 使用条件:当样本含量n较小时,样本值符合正态分布

    A  单样本t检验:推断该样本来自的总体均数μ与已知的某一总体均数μ0 (常为理论值或标准值)有无差别;

    B  配对样本t检验:当总体均数未知时,且两个样本可以配对,同对中的两者在可能会影响处理效果的各种条件方面扱为相似;

    C 两独立样本t检验:无法找到在各方面极为相似的两样本作配对比较时使用。

    2、非参数检验

    非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一股性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。

    适用情况:顺序类型的数据资料,这类数据的分布形态一般是未知的。

    A 虽然是连续数据,但总体分布形态未知或者非正态;

    B 体分布虽然正态,数据也是连续类型,但样本容量极小,如10以下;

    主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。

    三、信度分析

    检査测量的可信度,例如调查问卷的真实性。

    分类:

    1、外在信度:不同时间测量时量表的一致性程度,常用方法重测信度

    2、内在信度;每个量表是否测量到单一的概念,同时组成两表的内在体项一致性如何,常用方法分半信度。

    四、列联表分析

    用于分析离散变量或定型变量之间是否存在相关。

    对于二维表,可进行卡方检验,对于三维表,可作Mentel-Hanszel分层分析。

    列联表分析还包括配对计数资料的卡方检验、行列均为顺序变量的相关检验。

    五、相关分析

    研究现象之间是否存在某种依存关系,对具体有依存关系的现象探讨相关方向及相关程度。

    1、单相关: 两个因素之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因变量;

    2、复相关 :三个或三个以上因素的相关关系叫复相关,即研究时涉及两个或两个以上的自变量和因变量相关;

    3、偏相关:在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个变量之间的相关关系称为偏相关。

    六、方差分析

    使用条件:各样本须是相互独立的随机样本;各样本来自正态分布总体;各总体方差相等。

    分类

    1、单因素方差分析:一项试验只有一个影响因素,或者存在多个影响因素时,只分析一个因素与响应变量的关系

    2、多因素有交互方差分析:一顼实验有多个影响因素,分析多个影响因素与响应变量的关系,同时考虑多个影响因素之间的关系

    3、多因素无交互方差分析:分析多个影响因素与响应变量的关系,但是影响因素之间没有影响关系或忽略影响关系

    4、协方差分祈:传统的方差分析存在明显的弊端,无法控制分析中存在的某些随机因素,使之影响了分祈结果的准确度。协方差分析主要是在排除了协变量的影响后再对修正后的主效应进行方差分析,是将线性回归与方差分析结合起来的一种分析方法,

    七、回归分析

    分类:

    1、一元线性回归分析:只有一个自变量X与因变量Y有关,X与Y都必须是连续型变量,因变量y或其残差必须服从正态分布。

    2、多元线性回归分析

    使用条件:分析多个自变量与因变量Y的关系,X与Y都必须是连续型变量,因变量y或其残差必须服从正态分布 。

    1)变呈筛选方式:选择最优回归方程的变里筛选法包括全横型法(CP法)、逐步回归法,向前引入法和向后剔除法

    2)横型诊断方法:

    A 残差检验: 观测值与估计值的差值要艰从正态分布

    B 强影响点判断:寻找方式一般分为标准误差法、Mahalanobis距离法

    C 共线性诊断:

    • 诊断方式:容忍度、方差扩大因子法(又称膨胀系数VIF)、特征根判定法、条件指针CI、方差比例
    • 处理方法:增加样本容量或选取另外的回归如主成分回归、岭回归等

    3、Logistic回归分析

    线性回归模型要求因变量是连续的正态分布变里,且自变量和因变量呈线性关系,而Logistic回归模型对因变量的分布没有要求,一般用于因变量是离散时的情况

    分类:

    Logistic回归模型有条件与非条件之分,条件Logistic回归模型和非条件Logistic回归模型的区别在于参数的估计是否用到了条件概率。

    4、其他回归方法 非线性回归、有序回归、Probit回归、加权回归等

    八、聚类分析

    样本个体或指标变量按其具有的特性进行分类,寻找合理的度量事物相似性的统计量。

    1、性质分类:

    Q型聚类分析:对样本进行分类处理,又称样本聚类分祈 使用距离系数作为统计量衡量相似度,如欧式距离、极端距离、绝对距离等

    R型聚类分析:对指标进行分类处理,又称指标聚类分析 使用相似系数作为统计量衡量相似度,相关系数、列联系数等

    2、方法分类:

    1)系统聚类法: 适用于小样本的样本聚类或指标聚类,一般用系统聚类法来聚类指标,又称分层聚类

    2)逐步聚类法 :适用于大样本的样本聚类

    3)其他聚类法 :两步聚类、K均值聚类等

    九、判别分析

    1、判别分析:根据已掌握的一批分类明确的样品建立判别函数,使产生错判的事例最少,进而对给定的一个新样品,判断它来自哪个总体

    2、与聚类分析区别

    1)聚类分析可以对样本逬行分类,也可以对指标进行分类;而判别分析只能对样本

    2)聚类分析事先不知道事物的类别,也不知道分几类;而判别分析必须事先知道事物的类别,也知道分几类

    3)聚类分析不需要分类的历史资料,而直接对样本进行分类;而判别分析需要分类历史资料去建立判别函数,然后才能对样本进行分类

    3、进行分类 :

    1)Fisher判别分析法 :

    以距离为判别准则来分类,即样本与哪个类的距离最短就分到哪一类, 适用于两类判别;

    以概率为判别准则来分类,即样本属于哪一类的概率最大就分到哪一类,适用于

    适用于多类判别。

    2)BAYES判别分析法 :

    BAYES判别分析法比FISHER判别分析法更加完善和先进,它不仅能解决多类判别分析,而且分析时考虑了数据的分布状态,所以一般较多使用;

    十、主成分分析

    将彼此梠关的一组指标变适转化为彼此独立的一组新的指标变量,并用其中较少的几个新指标变量就能综合反应原多个指标变量中所包含的主要信息 。

    十一、因子分析

    一种旨在寻找隐藏在多变量数据中、无法直接观察到却影响或支配可测变量的潜在因子、并估计潜在因子对可测变量的影响程度以及潜在因子之间的相关性的一种多元统计分析方法

    与主成分分析比较:

    相同:都能够起到済理多个原始变量内在结构关系的作用

    不同:主成分分析重在综合原始变适的信息.而因子分析重在解释原始变量间的关系,是比主成分分析更深入的一种多元统计方法

    用途:

    1)减少分析变量个数

    2)通过对变量间相关关系探测,将原始变量进行分类

    十二、时间序列分析

    动态数据处理的统计方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题;时间序列通常由4种要素组成:趋势、季节变动、循环波动和不规则波动。

    主要方法:移动平均滤波与指数平滑法、ARIMA横型、量ARIMA横型、ARIMAX模型、向呈自回归横型、ARCH族模型

    十三、生存分析

    用来研究生存时间的分布规律以及生存时间和相关因索之间关系的一种统计分析方法

    1、包含内容:

    1)描述生存过程,即研究生存时间的分布规律

    2)比较生存过程,即研究两组或多组生存时间的分布规律,并进行比较

    3)分析危险因素,即研究危险因素对生存过程的影响

    4)建立数学模型,即将生存时间与相关危险因素的依存关系用一个数学式子表示出来。

    2、方法:

    1)统计描述:包括求生存时间的分位数、中数生存期、平均数、生存函数的估计、判断生存时间的图示法,不对所分析的数据作出任何统计推断结论

    2)非参数检验:检验分组变量各水平所对应的生存曲线是否一致,对生存时间的分布没有要求,并且检验危险因素对生存时间的影响。

    A 乘积极限法(PL法)

    B 寿命表法(LT法)

    3)半参数横型回归分析:在特定的假设之下,建立生存时间随多个危险因素变化的回归方程,这种方法的代表是Cox比例风险回归分析法

    4)参数模型回归分析:已知生存时间服从特定的参数横型时,拟合相应的参数模型,更准确地分析确定变量之间的变化规律

    十四、典型相关分析

    相关分析一般分析两个变里之间的关系,而典型相关分析是分析两组变里(如3个学术能力指标与5个在校成绩表现指标)之间相关性的一种统计分析方法。

    典型相关分析的基本思想和主成分分析的基本思想相似,它将一组变量与另一组变量之间单变量的多重线性相关性研究转化为对少数几对综合变量之间的简单线性相关性的研究,并且这少数几对变量所包含的线性相关性的信息几乎覆盖了原变量组所包含的全部相应信息。

    十五、R0C分析

    R0C曲线是根据一系列不同的二分类方式(分界值或决定阈).以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线

    用途:

    1、R0C曲线能很容易地査出任意界限值时的对疾病的识别能力

    用途 ;

    2、选择最佳的诊断界限值。R0C曲线越靠近左上角,试验的准确性就越高;

    3、两种或两种以上不同诊断试验对疾病识别能力的比较,一股用R0C曲线下面积反映诊断系统的准确性。

    十六、其他分析方法

    多重响应分析、距离分祈、项目分祈、对应分祈、决策树分析、神经网络、系统方程、蒙特卡洛模拟等。

    展开全文
  • 基于Python的数据分析

    万次阅读 多人点赞 2019-02-25 15:50:02
    下面来介绍一下基于Python的数据分析,主要介绍数据分析的概念、数据分析流程、Python优势、常用模块的用途以及使用 Python进行数据分析的学习方法及步骤; 随着大数据和人工智能时代的到来,网络和信息技术开始...

    下面来介绍一下基于Python的数据分析,主要介绍数据分析的概念、数据分析流程、Python优势、常用模块的用途以及使用
    Python进行数据分析的学习方法及步骤;

    随着大数据和人工智能时代的到来,网络和信息技术开始渗透到人类日常生活的方方面面,产生的数据量也呈现指数级增长的态势,同时现有数据的量级已经远远超过了目前人力所能处理的范畴。在此背景下,数据分析成为数据科学领域中一个全新的研究
    课题。在数据分析的程序语言选择上,由于Python语言在数据分析和处理方面的优势,大量的数据科学领域的从业者使用Python
    来进行数据科学相关的研究工作。

    1、数据分析的概念

    数据分析是指用适当的分析方法对收集来的大量数据进行分析,提取有用信息和形成结论,对数据加以详细研究和概括总结的过程。随着信息技术的高速发展,企业生产、收集、存储和处理数据的能力大大提高,同时数据量也与日俱增。把这些繁杂的数据通过数据分析方法进行提炼,以此研究出数据的发展规律和预测趋势走向,进而帮助企业管理层做出决策。

    2、数据分析的流程

    数据分析是一种解决问题的过程和方法,主要的步骤有需求分析、数据获取、数据预处理、分析建模、模型评价与优化、部署:

    1)需求分析

    数据分析中的需求分析是数据分析环节中的第一步,也是非常重要的一步,决定了后续的分析方法和方向。主要内容是根据业务、生产和财务等部门的需要,结合现有的数据情况,提出数据分析需求的整体分析方向、分析内容,最终和需求方达成一致。

    2)数据获取

    数据获取是数据分析工作的基础,是指根据需求分析的结果提取、收集数据。数据获取主要有两种方式:网络爬虫获取和本地获取。网络爬虫获取指的是通过Python编写爬虫程序合法获取互联网中的各种文字、语音、图片和视频等信息;本地获取指的是通过计算机工具获取存储在本地数据库中的生产、营销和财务等系统的历史数据和实时数据。

    3)数据预处理

    数据预处理是指对数据进行数据合并、数据清洗、数据标准化和数据变换,并直接用于分析建模的这一过程的总称。其中,数据合并可以将多张互相关联的表格合并为一张;数据清洗可以去掉重复、缺失、异常、不一致的数据;数据标准化可以去除特征间的量纲差异;数据交换则可以通过离散化、哑变量处理等技术满足后期分析与建模的数据要求。在数据分析过程中,数据预处理的各个过程互相交叉,并没有固定的先后顺序。

    4)分析建模

    分析建模是指通过对比分析、分组分析、交叉分析、回归分析等分析方法,以及聚类模型、分类模型、关联规则、智能推荐等模型和算法,发现数据中的有价值信息,并得出结论的过程。

    5)模型评价与优化

    模型评价是指对于已经建立的一个或多个模型,根据其模型的类别,使用不同的指标评价其性能优劣的过程。模型的优化则是指模型性能在经过模型评价后已经达到了要求,但在实际生产环境应用过程中,发现模型的性能并不理想,继而对模型进行重构与优化的过程。

    6)部署

    部署是指将数据分析结果与结论应用至实际生产系统的过程。根据需求的不同,部署阶段可以是一份包含了现状具体整改措施的数据分析报告,也可以是将模型部署在整个生产系统的解决方案。在多数项目中,数据分析员提供的是一份数据分析报告或者一套解决方案,实际执行与部署的是需求方。

    3、Python是功能强大的数据分析工具

    Python具有丰富和强大的库,它常被称为胶水语言,能够把用其他语言制作的各种模块很轻松地连接在一起,是一门更易学、更严谨的程序设计语言,常用于数据分析、机器学习、矩阵运算、科学数据可视化、数字图像处理、网络爬虫、Web应用等;R语言常用于统计分析、机器学习、科学数据可视化等;MATLAB则用于矩阵运算、数值分析、科学数据可视化、机器学习、符号运算、数字图像处理及信号处理等。可以看出,以上三种语言均可进行数据分析。

    4、Python进行数据分析的优势

    Python是一门应用非常广泛的计算机语言,在数据科学领域具有无可比拟的优势。Python正在逐渐成为数据科学领域的主流语言。Python数据分析具有以下几方面优势:

    1》语法简单精炼。对于初学者来说,比起其他编程语言,Python更容易上手;

    2》有许多功能强大的库。结合在编程方面的强大实力,可以只使用Python这一种语言就可以去构建以数据为中心的应用程序;

    3》不仅适用于研究和原型构建,同时也适用于构建生产系统。研究人员和工程技术人员使用同一种编程工具,能给企业带来显著的组织效益,并降低企业的运营成本;

    4》Python程序能够以多种方式轻易地与其他语言的组件“粘接”在一起。例如,Python的C语言API可以帮助Python程序灵活地调用C程序,这意味着用户可以根据需要给Python程序添加功能,或者在其他环境系统中使用Python;

    5》Python是一个混合体,丰富的工具集使它介于系统的脚本语言和系统语言之间。Python不仅具备所有脚本语言简单和易用的特点,还提供了编译语言所具有的高级软件工程工具。

    5、Python数据分析常用类库介绍

    Python拥有IPython、Num Py、Sci Py、pandas、Matplot⁃lib、scikit-learn和Spyder等功能齐全、接口统一的库,能为数据分析工作提供极大的便利。其中,Num Py主要有以下特点:

    1)具有快速高效的多维数组对象ndarray;
    2)具有对数组执行元素级计算及直接对数组执行数学运算的函数;
    3)具有线性代数运算、傅里叶变换及随机数生成的功能;
    4)能将C、C++、Fortran代码集成到Python;
    5)可作为算法之间传递数据的容器。

     

     

     

     

     

     

     

     

     

     

     

    展开全文
  •  1 研究背景与分析框架:房地产市场进入总量平衡、区域分化的城市群时代  1.1 研究背景:房地产进入新周期,城市发展进入城市群都市圈时代  从总体看,20-50岁人口于2013年见顶、需求峰值已过...

     

      当前中国城镇化正步入城市群都市圈时代,房地产市场已进入总量平衡、区域分化的新发展阶段,房地产长效机制加快构建、“一城一策”推行,城市发展潜力差异巨大,城市研究变得尤为重要。

      1  研究背景与分析框架:房地产市场进入总量平衡、区域分化的城市群时代

      1.1 研究背景:房地产进入新周期,城市发展进入城市群都市圈时代

      从总体看,20-50岁人口于2013年见顶、需求峰值已过,存量住房套户比近1.1和房地产长效机制加快构建,标志着中国房地产市场告别高增长阶段,进入高质量发展的新时代新周期。在需求侧,中国20-50岁主力置业人群规模于2013年达峰值,住宅新开工面积2011、2013年达超过14亿平的双峰,2018年商品住宅销售面积达14.8亿平方米、大概率为历史峰值。按照当前人口发展趋势,中国人口总量将在2024年左右见顶,如后续鼓励生育,见顶时间也最多延迟到2031年。在供给侧,1978年改革开放以来,特别是1998年房改以来,中国城镇居民基本实现从筒子楼到住宅小区,从全民蜗居到基本适居的历史性跨越,全国层面的城镇住房套户比从不到0.8上升到接近1.1,表明住房短缺时代终结。在政策层面,房地产调控思路发生重大转变,逐渐从短期调控政策向长效机制建设过渡。过去20年,中国房地产调控目标在稳增长和控房价之间几经反复,调控思路重抑制需求轻增加供给、重短期调控轻长效机制,调控手段重行政调控轻经济手段,结果房价越调越涨。2016年12月中央明确定位“房子是用来住的、不是用来炒的”,开始提出建立促进房地产平稳健康发展的基础性制度和长效机制,房地产调控思路逐渐从短期调控政策向长效机制建设过渡,从全国一盘棋向因城施策过渡,从以商品属性为主向构建强调居住属性的住房制度过渡。

      在中长期,城镇化、居住改善、城市更新三大红利将支撑中国房地产市场未来平稳发展。一是城镇化红利。2018年中国常住人口城镇化率为59.6%,与发达国家平均约80%的城镇化水平相比仍有较大增长空间,并且户籍人口城镇化率仅为43.4%,市民化空间更是巨大。二是居住改善红利。当前同时拥有厨房和卫生间的城镇住房成套率仅85%,且有20%的家庭居住在条件较差的平房,人均住房使用面积仅不到25平,与发达经济体存在明显差距。随着中国经济持续增长和收入提高,加之家庭规模日趋小型化,人均住房面积还将进一步增长。三是城市更新红利。随着住房存量市场日益庞大,住房存量更新、拆迁改造的规模将持续上升。总体来看,到2030年之前中国房地产市场年均需求将在11-13亿平方米左右,需求虽有下滑,但规模仍然很大。(参见恒大研究院2018年12月报告《传统周期延续,还是长效机制破局?—2019年房地产市场展望》)

      从区域看,中国进入城市群都市圈时代,区域分化突出,城市发展潜力差异巨大,城市研究价值更加凸显。在住房短缺时代,城市的发展潜力差异不大,但在住房总体平衡时代,城市的发展潜力则呈明显不同。住房存量套户比低、产业活力强、人口持续流入的城市显然更具发展潜力,而住房存量套户比高、产业不振、人口持续流出的城市缺乏发展潜力。在这一背景下,研判不同城市的发展潜力至关重要。从国际和中国经验看,人口迁移分为两个阶段:从乡村到城市迁移,到在城市化中后期明显向都市圈城市群迁移。虽然中国从2006年“十一五”规划开始提出以城市群作为城镇化的主体形态,但明显推进城市群建设则开始于2014年启动的新型城镇化建设,19个城市群规划相继出台。2018年11月,国务院《关于建立更加有效的区域协调发展新机制的意见》要求,建立以中心城市引领城市群发展、城市群带动区域发展新模式,推动区域板块之间融合互动发展。鉴于当前多数城市群发育不成熟,中央把以大城市为核心的都市圈作为城市群建设的突破口和抓手。2019年2月,国家发改委发布《关于培育发展现代化都市圈的指导意见》,要求以同城化为方向建设1小时通勤圈,标志着中国进入城市群都市圈时代。事实上,过去几年一二三四线城市房价走势明显分化,正是城市发展潜力呈明显差异的直接表现。一二线城市房价因人口大幅流入、土地供给不足在2015-2016年暴涨;三四线城市一度库存高企、后因去库存政策等在2017-2018年大涨。

      1.2 分析框架:基本面分析趋势,市场面分析时机

      在“房地产长期看人口,中期看土地,短期看金融”的经典框架基础上,我们从“基本面+市场面”两个层面分27个指标研究2019年中国336个地级行政单位发展潜力(不含三沙),具体以基本面研判城市中长期发展潜力,以市场面辅助择时。

      基本面分析是城市发展潜力研判的核心,关键在于研判人口趋势,逻辑链条是:人随产业走,产业布局决定于区位。其一,房地产长期看人口,人口决定需求。人口是一切经济社会活动的基础,更是房地产市场发展的根本支撑。由于出生人口大幅下滑,2018年中国人口仅增加530万,人口总量将在2024-2031年见顶,各地区已逐渐进入人口争夺的存量博弈时代。人口迁移的根本动力在于实际收入和生活水准差距,一般规律是人随产业走、人往高处走。其二,产业决定城市兴衰,产业兴则城市兴,产业聚则人口聚。当前中国经济从高速增长阶段转向高质量发展阶段,从全球价值链的中低端向中高端转型升级,区域产业格局明显变化。从地区层面看,东部沿海大量制造业受成本上升影响,已经并正向中国内地、东南亚转移。从城市群角度看,发达城市群内核心城市集聚高端制造和高端服务业、向周边转移一般制造业,发育中都市圈城市群制造业继续向核心城市集聚,城市群外一般城市产业结构多呈现低端制造业化和低端服务业化。其三,区位决定产业布局,规模经济和交通成本决定区位。企业产业布局以最大化利润为目标,区位选择至关重要。但区位因素并非一成不变的,随着规模经济和交通成本等因素变化。中国东部沿海地区率先发展的关键并非是率先开放的政策,而是沿海的地理位置有利于出口;从全球看,约60%的经济总量集中在沿海100公里范围内。高端制造和高端服务业聚集在核心大城市,主要是因为规模经济带来的成本下降和效率提高。

      具体来看,我们在基本面关注需求侧的人口现状、人口潜力以及人口购买能力,以及供给侧的住房存量及土地财政依赖度,共涉及23个指标。其中,人口现状分为总量和结构两个维度,后者包括外来人口、人口年龄结构、城镇化率、小学生等指标。基于“人随产业走,人往高处走”的基本逻辑,我们从经济实力、产业创新、交通区位和公共资源四个方面分析人口潜力。除经济总量外,我们以经济-人口比值(区域经济份额/人口份额)作为反映经济层面的总体人口吸引力,以A+H股上市公司数、发明专利授权量反映区域先进产业及创新能力,以高铁始发终到趟数、高速公路路网密度、到中心城市距离等反映交通区位,以在校大学生数、执业(助理)医师数、城市轨道交通里程路网密度反映教育、医疗、公共交通等公共资源情况。在购买能力方面,我们关注绝对水平的人均储蓄存款、人均可支配收入以及相对水平的房价收入比。在供给侧,我们关注套户比和土地财政依赖度两个指标;其中,套户比反映存量住房市场的总体平衡程度,土地财政依赖度反映地方政府对房地产的依赖及与此相关的土地出让偏好。

      在市场面,用库存去化、房价周期、需求透支率、地价房价比等波动较大的4个短期指标研判城市市场短期波动,以在基本面分析基础上判断进入时机及优先顺序。一些城市尽管从基本面上看中长期发展潜力较大,但如果短期需求透支严重,短期之内并无发展潜力。我们通过4个短期指标反映市场面,包括土地消化周期、房价周期、需求透支率、地价房价比等。由于可售库存数据不全,我们以土地消化周期这种广义库存去化指标反映城市住房库存。房价周期反映城市房价目前处于何种位置,是上涨中还是下跌中,以及相关持续时间。需求透支率即为当前住宅销售面积增速与过去几年增速的偏离程度,如果大幅偏离过去均值,则很可能意味着风险较大。地价房价比可大致反映房企当前拿地的预期成本收益比,不过如果缺乏人口和产业导入,地价房价比低的地区也缺乏发展潜力。

      此外,短周期的金融指标多具有全国同一性、地区差异小,所以未纳入模型考量范围。金融政策(利率、流动性投放、信贷、首付比等)既是各国进行宏观经济调控的主要工具之一,也是对房地产市场短期波动影响最为显著的政策。住房的开发和购买都高度依赖银行信贷的支持,利率、首付比、信贷等政策将影响居民的支付能力,也影响开发商的资金回笼和预期,对房市供求波动影响较大。

      本文所有的数据均来自于公开渠道,主要包括国家及各地方统计局、政府公开资料、Wind、部分房地产专业数据机构等。对部分地区或部分指标尚未公布2018年数据的情况,我们以2017年数据代替。

      在数据处理上,为消除原始数据的量纲差异,对原始数据采取“最大值-最小值”方法进行标准化处理。其中,对于单调递增指标线性转换为0-100,对于单调递减指标逆向线性转换为0-100。

      在权重处理上,采用层次分析法自上而下设置各级指标权重,并通过回测历史数据优化权重设置。在2015-2016年的数据回测中,模型对排名的准确度为75%,对指数的拟合优度为62%。

      2  基本面:2019年中国城市发展潜力排名

      2.1 榜单概览:深北上广居榜首,区域中心城市及长三角珠三角表现突出,东北整体落后

      根据GDP、城镇居民人均可支配收入、以及城市政治地位等,将全国337个地级及以上单位划分为一二三四城市,其中三沙市因公开数据缺失较多而不在本文榜单范围内。一线城市为北上广深4个,2018年GDP在2万亿元以上;二线城市为除一线城市外的直辖市、多数省会城市、计划单列市以及GDP大于7000亿元且城镇居民人均可支配收入大于4万元的少数发达地级市共35个;三线城市为少数弱小省会城市和GDP在2000亿元以上的其他地级单位共85个;四线城市为GDP在2000亿元以下的其余地级单位共213个。

      2019年深北上广稳居中长期发展潜力榜单前4名,二线城市中成都、南京、武汉、重庆、天津、杭州位居前十;东部地区有32座城市进入前50名,东北地区有超八成城市位于200名之后。百强城市以全国13%的土地,集聚50%的人口,创造约73%的GDP,占全国商品住宅销量的约62%。深圳占据城市发展潜力榜首,北京、上海、广州紧随其后。二线城市中,成都、南京、武汉、重庆、天津、杭州位列前10名;郑州、长沙、西安、济南、合肥等省会城市,厦门、青岛等计划单列市,苏州、东莞、佛山等发达地级市进入前20名。省会城市除呼和浩特、银川、西宁、拉萨外均排名前50。在前50名城市中,东部地区多达32个,中部、西部、东北地区分别有6、8、4个。除直辖市、省会城市和计划单列市外,前50名其余地级市大多分布在长三角、珠三角地区,其中长三角城市群8个,珠三角城市群4个,海西城市群、山东半岛城市群各2个。分地区看,东部、中部、西部地区排在200名之后的城市占比分别为4.6%、22%、64.1%;东北地区有30座城市位列200名之后,占本区域地级单位个数的83.3%,发展潜力总体靠后。需注意,各指标经标准化处理后合成的发展潜力指数仅具备序数意义。

      2.2 人口现状:人口持续向大城市集聚,中西部核心城市崛起

      从区域层面看,当前人口回流皖川桂豫等中西部省份与粤浙等东部省份人口再集聚并存,京沪津苏黑吉辽人口增长低迷甚至负增长。改革开放后至2010年左右,人口大规模向出口导向型的沿海发达地区流动。2010年以来,随着沿海地区产业转型升级、中西部地区产业承接以及老一代农民工老化,部分人口逐渐回流中西部,东部人口增速总体减缓,而东北地区人口开始负增长。当前人口回流明显的是安徽、四川、广西、河南、贵州等省,安徽常住人口年均增量从2000-2010年的-33万回升至2010-2015年的37万,再增至2015-2018年的60万,四川从-56万回升至32万,再增至46万。广东、浙江等省常住人口增长一度受人口回流而明显放缓,但2015-2018年人口重新明显集聚,当前年均增量分别为166、66万。江苏则从2000-2010年的54万降至2010-2015年的22万,2015-2018年为25万、无明显起色,江苏与广东的人口集聚差异类似经济发展差异,2016年开始两地经济总量逐渐拉大。

      从分线城市看,人口持续向一二线大城市流入,三线城市全域流入流出基本平衡,四线城市持续流出。1982-2017年,一线、二线城市人口年均增速均显著高于全国平均水平,且一线城市增速更高,表明人口长期净流入、且向一线城市集聚更多。其中,1991-2000年、2001-2010年、2011-2017年,一线城市人口年均增速分别为3.9%、3.4%、1.5%,二线城市分别为1.9%、1.8%、1%,表明2011年以来一二线城市人口流入放缓但仍保持集聚,放缓的原因包括京沪控人、人口老化农民工回流等。上述三个时期,三四线合计人口年均增速分别为0.63%、0.29%、0.44%,而全国人口平均增速为1.04%、0.57%、0.52%,表明2011年以来人口虽有回流但仍在持续净流出。其中,2001-2010年、2011-2017年三线城市人口年均增速分别为0.50%、0.44%,基本持平于全国0.57%、0.52%的人口增速;四线城市人口年均增速均为0.14%、0.38%,明显低于全国平均水平。

      从重点城市看,深圳、广州、杭州常住人口大幅增长,西安、成都、长沙等中西部核心城市日益崛起,北京、上海、天津、苏州、无锡等东部城市人口增长明显放缓。过去二十年,城市的人口集聚格局发生深刻变化。除京沪从2013年开始主动控人外,其他城市近期多在“抢人”、但成效各异。2000-2010年,常住人口年均增量最大的前五个城市为上海、北京、苏州、深圳、天津,分别年均增加66、61、37、34、31万。2010-2015年,常住人口年均增量最大的前五个城市为天津、北京、上海、深圳、郑州,分别年均增加50、42、22、20、18万。2015-2018年,常住人口年均增量最大的前五个城市为深圳、广州、杭州、长沙、西安,分别年均增加55、47、26、24、23万;成都、郑州、重庆(主城)常住人口年均增加也超过15万,而传统的人口集聚大市北京、上海、天津、苏州、无锡年均增加不足5万,北京2017-2018年持续两年负增长、天津2017年一度负增长。

      从户籍情况看,主要大城市外来人口众多、人口本地化空间很大,随着户籍制度改革深化推进有望释放部分住房需求。中央要求,除北京、上海少数超大城市外,其他城市均需放开放宽落户限制。当前常住人口与户籍人口之差大于500万人的有上海、北京、深圳、东莞、广州、天津6座城市,在200-500万人的有苏州、佛山、武汉、郑州、宁波5座城市,在100-200万人的有15座城市,50-100万人的有18座城市。上述44城或为直辖市、省会城市、计划单列市,或为长三角、珠三角、海峡西岸地区发达城市。近年在户籍制度改革和“抢人大战”的背景下,部分大城市户籍人口增长迅猛。2018年西安、成都、武汉、广州户籍人口分别较上年增加86.6、40.8、30.1、29.8万人,主要以户籍迁入的机械增长为主。

      2.3 人口潜力:人随产业走,一二线产业基础及潜力突出

      一二线城市以25.5%的人口创造了46.5%的GDP,人口集聚潜力很大。当前一线城市以5.2%的人口创造了全国12.3%的GDP,二线城市以20.3%的人口创造了34.1%的GDP,三线城市的人口份额与经济份额基本持平、分别为33.9%、34.0%,四线城市的人口份额明显低于经济份额、分别为39.7%、24.5%(因统计问题,地区GDP合计与全国存在差异)。从经济—人口比值来看,2017年一、二、三、四线城市分别为2.4、1.7、1.0、0.6;从剔除工业因素的第三产业-人口比值看,2017年一、二、三、四线城市分别为3.2、1.7、0.8、0.5。从经济增速看,2015-2017年,一线、二线、三线、四线城市年均经济增速分别为7.5%、7.9%、7.8%、6.8%,四线经济规模基数小、但增速仍然乏力。从区域看,近几年经济增速比较低的地区是辽宁、山西等数据挤水分地区及东北、西部等偏远地区,经济增速多在6%以下;而中部不少地区经济增速在8-10%之间,西南部分地区更是在10%以上。总体上看,未来人口将继续向大都市圈和区域中心城市集聚,三四线城市全域人口未来将继续大幅流出。

      在产业创新方面,一二线城市头部效应明显,京沪深占据绝对高地,杭州、广州、苏州、南京、成都等城市居前。产业创新的城市差异比经济实力更加明显,这主要因为创新需要高度集聚才更有效率。从反映龙头企业的A+H股上市公司数来看,北京占全国的比重达10.7%,京沪深合计占比高达27.5%,一二线城市合计占69.9%。从发明专利授权量来看,北京由于占尽产学研资源优势而独占全国的14.4%,京沪深合计占26.8%,一二线城市占比达到75.5%。产业创新排名相对靠前的三线城市主要是绍兴、常州、台州、嘉兴、珠海等长三角、珠三角城市。

      在交通区位方面,一二线城市占据交通枢纽地位,高铁日始发终到趟数分别高达740、149趟,东部地区受益于自然地理和率先发展战略交通基础条件更优。从自然地理看,东部沿海地区具有先发的区位优势。在东部率先发展战略下,高铁、高速公路等交通基础设施发展迅速,特别是珠三角、长三角、京津冀等地区。从高铁通达度看,一线、二线、三线、四线城市高铁日均通行班次分别为974、460、155、54趟;目前尚有107个城市未开通高铁,主要分布在中西部地区。从高铁日始发终到趟数看,一线、二线、三线、四线城市分别平均为740、149、17、6趟,其中广州、上海、北京、深圳、成都、武汉、重庆、天津、长沙、西安位居全国前十。从高速公路看,一二线城市与三四线城市的路网密度差异仍然十分明显,分别为1001、506、330、99公里/万平方公里,四线城市仅为一线城市的10%。2016年国家发改委《铁路网中长期规划》要求,在“四纵四横”高速铁路的基础上,建设形成以“八纵八横”主通道为骨架、区域连接线衔接、城际铁路补充的高速铁路网。其中八纵是指沿海通道、京沪通道、京港(台)通道、京哈~京港澳通道、呼南通道、京昆通道、包(银)海通道、兰(西)广通道;八横是指绥满通道、京兰通道、青银通道、沿江通道、沪昆通道、厦渝通道、广昆通道。

      在公共资源方面,一二线城市优质教育、医疗资源密集,城市轨道交通提升城市运行效率。公共资源是产业发展的配套,优质公共资源对人口有着明显吸引力。从教育看,直辖市和省会城市多拥有区域内最优质的中小学和高等教育资源,拥有的985/211大学数合计占全国的81%,拥有的在校大学生数量合计占全国的58%;其中,京津沪的一本升学率位居全国前三。从医疗资源看,一线、二线、三线、四线城市每千人口执业(助理)医师数分别为3.2、3.1、2.2、1.9,并且医疗资源的质量差异巨大,全国最优质的医疗资源主要集中在一二线城市。从城市轨道交通看,根据各城市地铁公司官网及发改委最新批复,至2019年3月全国已通城市轨道交通(不含有轨电车)的城市有35个,加上已批复未开通的城市则增至45个。二线城市中太原、呼和浩特、南通、泉州、烟台尚未开通城市轨道交通,三线城市目前仅温州开通。已批复未开通地铁的城市除太原、呼和浩特、南通3座二线城市外,还包含包头、徐州、常州、绍兴、金华、芜湖、洛阳等7座三线城市。

      2.4 购买能力:一二线城市绝对购买能力较高,相对购买能力较低

      一线城市人均储蓄存款、可支配收入分别高达11.5、6.6万元,远高于其他城市。绝对购买能力不仅是可支配收入,还应包括人均储蓄存款,尽管当前“存款搬家”现象明显,但仍能反映相关情况。从城乡居民人均储蓄存款看,2017年一线、二线城市分别为11.5、6.6万元,三线、四线城市分别为4.1、3.2万元。从城镇居民可支配收入看,2017年一线、二线城市分别为6.4、4.5万元,三线、四线城市分别为3.6、3.1万元。此外,包头、鄂尔多斯、呼和浩特等部分资源型城市人均储蓄存款及可支配收入也较高。

      一线、二线、三线、四线城市房价收入比分别为20.8、10.6、8.4、6.0年;但一线城市因土地供给不足,房价并非由中位数收入人群决定,而是由高收入人群决定。2017年一线、二、三、四线城市房价收入比分别为20.8、10.6、8.4、6.0年,城市间分化显著,这与全球其他经济体核心城市房价收入比较高的情况一致。其中,北京、上海、深圳的房价收入比分别为26.5、22、21.4年;二三线城市中三亚、厦门、福州房价收入比也很高,分别为31.2、24.2、21.5年,三亚为全国旅游城市、房价主要受外来者购房影响。从原则上讲,在供需基本平衡的市场,房价由中位数收入人群决定;在供给明显大于需求的市场,房价由低收入人群决定;在供给明显小于需求的市场,房价则由高收入人群决定。并且,与国外明显不同,因文化传统差异,中国人购房存在“六个钱包”现象,即父母等对子女的资金支持通常较大,这使得传统房价收入比的度量存在一定偏差。不过,考虑到现实并无更好的指标及数据衡量相对购买能力,本文依然采用房价收入比度量。

      2.5 住房供给:一二线城市住房供给偏紧,二三线土地财政依赖度较高

      一二线城市住房供给偏紧、套户比分别为0.97、1.02,东北地区有过剩风险、套户比超过1.1。我们在2018年11月报告《中国住房存量测算:过剩还是短缺?》估算了2017年各省级、地级单位城镇住宅套户比。分地区看,2017年东部、中部、西部地区包括学生及其宿舍的城镇套户比分别为0.99、1.05、1.03,东北地区为1.13;东部、中部、西部地区不含学生及其宿舍的套户比分别为1.02、1.09、1.08,东北地区为1.17。分线看,2017年一线、二线、三四线城市套户比(含学生及其宿舍)分别为0.97、1.02、1.06,一二线城市住房供给偏紧。在全国336个地级单位(不含三沙)中,2017年有89个城市的套户比小于1,占比26.5%;有157个城市的套户比介于1.0-1.1之间,占比46.7%;有72个城市的套户比介于1.1-1.2之间,占比21.4%;有18个城市的套户比高于1.2,占比5.4%。

      东部、中部土地财政依赖度较高,分别为57%、52%;二三线城市分别为64%、50%,高于一线、四线城市。土地财政依赖度在一定程度上意味着地方政府对房价的依赖。分区域看,东部、中部近三年土地财政依赖度(土地出让收入/地方一般公共预算收入)分别为57%、51.7%,高于西部、东北的31.6%、19.4%。这是由于西部、东北需求相对偏弱,房地产拉动经济的能力有限。分线看,二、三线城市近三年土地财政依赖度分别为64.2%、49.5%,高于一线城市的42.2%和四线城市的35%。其中,上海、深圳土地财政依赖度分别为25%、26%,而北京、广州达50%、68%。在全国336个地级单位(不含三沙)中,有16座城市土地财政依赖度大于100%,占比4.8%;有31座城市在70%-100%之间,占比9.2%;有98座城市在40%-70%之间,占比29.2%;有191座城市在40%以下,占比56.8%。

      3  市场面:2019年百强城市何时布局最佳?

      3.1 榜单概览:发展潜力100强分3档

      在基本面分析基础上,我们结合市场面情况将发展潜力100强划为3档,其中深北上广等15个城市为一档,成都、武汉等25城为二档,兰州、徐州等60城为三档。市场面由库存去化周期、需求透支率、房价周期、地价房价比4项指标组成。我们首先将城市发展潜力100强按照发展潜力指数分为三档,再通过市场面指标分析,对当前市场趋势较好的城市升档,其他城市维持不变。

      3.2 量价趋势:部分三四线城市需求明显透支,部分一二线城市成交量有所回暖房价趋稳

      前期受棚改货币化刺激销量暴增、而又缺乏基本面支撑的部分三四线城市存在需求透支风险。比如,一个城市过去3-5年的销售增速均在20%以下,在基本面改变不大的情况下,某年销售增速突然飙升,比如达到50%及以上,这种城市在短期存在需求透支风险,从数据看主要是部分受棚改货币化刺激的三四线城市。2017年以来,一线城市商品住宅销量明显下降,二线城市基本持平,三四线城市受棚改货币化安置比例扩大而继续暴增。各线城市销量暴增的时间呈现轮动特征,一线城市2015年商品住宅销售面积同比增长14%,二线城市2015、2016年分别增长10%、26%,三四线城市2016、2017年分别增长22%、13%,部分缺乏基本面支撑的三四线城市需求明显透支。

      从房价周期看,前期经历明显调整的部分一二线城市及周边房价将逐渐趋稳,如供给不足或存在一定上涨压力。从历史经验看,过去不少城市的房价存在三年左右的小周期,涨一段调整一段,小周期的背后是房地产调控、地方对土地财政的依赖、需求释放与透支等因素。2015-2016年京津冀、长三角、珠三角部分城市及一些省会城市房价已连续低迷2年以上,目前成交量有所回暖,市场逐渐趋稳。此类城市在一线城市中有北上广深,二线城市中有天津、南京、无锡、苏州、杭州、济南、郑州、武汉、东莞等,三线城市中有廊坊、温州、嘉兴、珠海、惠州、中山等。而部分前期主要受棚改货币化刺激导致房价大涨、同时缺乏基本面支撑的三四线城市存在一定调整风险。

      3.3 库存去化:西部地区、四线城市总体库存风险较高

      从可售库存看,2019年3月一线、二线、三四线样本城市库存去化周期分别为11.7、10.5、11.4个月,三四线城市库存去化周期从2018年下半年以来有一定上升。可售商品住宅数据可得性较差,我们选取分线样本城市进行分析。一线城市选取4城:北京、上海、广州、深圳,二线城市选取16城:天津、重庆、南京、武汉、成都、苏州、厦门、西安、长沙、宁波、福州、青岛、长春、杭州、济南、南昌,三四线城市选取9城:徐州、莆田、东营、芜湖、焦作、南平、三明、滁州、安庆。2015年以来,得益于棚改货币化政策三四线城市可售库存去化周期持续走低,2018年5-6月最低不到7个月,但逐渐上升。2019年3月,一线、二线和三四线城市可售商品住宅去化周期分别为11.7、10.5和11.4个月。需要注意的是,库存去化周期对销售非常敏感,比如部分城市商品住宅销量当前处于历史低位,一旦成交回暖,去化周期将明显下降。

      从广义库存看,西部地区、四线城市库存偏高,2017年土地消化周期分别为2.5、2.1年。分地区看,东部、中部、东北地区库存持续改善,西部地区库存改善力度明显不足。2017年,东部、中部、东北地区土地消化周期均在1.15-1.35年之间,而西部地区则高达2.5年。分线城市看,2017年一线、二线、三线、四线城市土地消化周期分别为0.8、0.9、1.2、2.1。尽管一线城市受2016年930开始的调控收紧影响,市场销售持续降温,但土地消化周期基本小于1;四线城市销售乏力,土地供应持续增加,仍有较大库存风险。

      3.4 拿地成本:地价房价比总体回落,少数城市仍较高

      近期土地成交有所回暖。2018年百城样本中一线、二线、三四线城市住宅类用地成交溢价率分别为6.1%、12.5%、18.1%,均较2017年的21.9%、38.3%、45.3%明显下滑。不过,从最近半年数据看,土地成交有所回暖,2019年3月百城样本中一线、二线、三四线城市住宅类用地成交溢价率分别为4.2%、21.6%、21.4%,其中二线城市连续4个月上行、三四线城市连续5个月上行。

      地价房价比总体回落,但少数城市地价成本仍较高。2018年一、二、三、四线城市地价房价比分别为29%、25%、19%、13%,除一线城市较2017年小幅上升1个百分点外,二、三、四线城市分别下降7、5、2个百分点(由于地级层面的新房价格数据不全,在此以二手房价格分析,由此估计的地价房价比可能偏低)。尽管各线城市地价房价比总体上差距不大,但具体城市之间差异巨大。此外,当前部分城市推行的“限房价、竞地价”土地出让模式有效地平抑了新房价格,但在供给不足的情况下容易引起新房抢购。

      4  拥抱城市群,把握大趋势

      以中心城市为引领的都市圈城市群更具生产效率,更节约土地、能源,是支撑中国经济高质量发展的主要平台,是中国当前以及未来发展的重点。根据基本面排名,2019年发展潜力百强城市中有96个位于19大城市群,其中处于24个千万级大都市圈的有54个。2018年11月,国务院《关于建立更加有效的区域协调发展新机制的意见》要求,建立以中心城市引领城市群发展、城市群带动区域发展新模式,推动区域板块之间融合互动发展。以住建部城区常住人口为标准,将城市划分为1000万以上、500-1000万、300-500万、100-300万、50-100万、20-50万、20万以下七类。从人均生产效率看,分规模人均创造GDP呈现规模从大到小的递减现象;1000万人以上的城市人均创造14万元的GDP,是100-300万人城市的2.1倍,是20万人以下城市的约5倍。从人均城市建设用地看,大城市明显更节约土地资源,分规模人均创造GDP呈现规模从大到小的递增现象,2017年1000万人以上城市人均建设用地仅74.5平方米,而100-300万、20万以下城市分别为117.3、135.5平方米。

      在城市群层面,19个城市群的核心在于京津冀、长三角、珠三角、长江中游、成渝等5个城市群。2014年《国家新型城镇化规划(2014-2020年》及“十三五”规划要求建设长三角、珠三角、京津冀、山东半岛、海峡西岸、哈长、辽中南、中原、长江中游、成渝、关中平原、北部湾、山西中部、呼包鄂榆、黔中、滇中、兰州-西宁、宁夏沿黄、天山北坡等19个城市群。其中,长三角、珠三角、京津冀三大城市群是其中最成熟的三个,以全国5%的土地面积集聚了23.3%的人口,创造了39.3%的GDP,成为带动中国经济高质量发展和参与国际经济合作与竞争的主要平台,目前均已经上升为国家战略。在三大城市群外,以成都、重庆、武汉为核心的成渝、长江中游城市群最具发展潜力,两大城市群以5.2%的土地面积集聚了15.5%的人口,创造了15.6%的GDP。其次则是山东半岛、海峡西岸、中原、关中平原、哈长、辽中南等城市群。预计到2030年,中国2亿新增城镇人口的约80%将分布在19个城市群,其中约60%将分布在长三角、珠三角、京津冀、长江中游、成渝、中原、山东半岛等七大城市群(参见恒大研究院2018年7月报告《中国人口大迁移》)。

      在都市圈层面, 24个1000万人以上的大都市圈以6.7%的土地集聚33%的人口创造约54%的GDP,其中上海、北京、深莞惠、广佛肇等都市圈发展潜力明显居前。鉴于当前多数城市群发育不成熟,且部分核心城市生产要素明显向周边溢出,中央把以大城市为核心的都市圈作为城市群建设的突破口和抓手。2019年2月,国家发改委发布《关于培育发展现代化都市圈的指导意见》,这是中国第一份以“都市圈”为主题的中央文件,要求以大城市及周边地区同城化为方向推进基础设施一体化、强化城市间产业分工协作、加快建设统一开放市场、推进公共服务共建共享等,包括以轨道交通等为基础打造1小时通勤圈。根据有关城市群规划及相关地方规划,当前中国有上海、北京、广佛肇、杭州、深莞惠等10个2000万人以上的大都市圈,有重庆、青岛、厦泉漳等14个1000万-2000万人大都市圈。24个千万级大都市圈以全国6.7%的土地集聚约33%的常住人口,创造约54%的GDP。从发展潜力看,上海、北京、深莞惠、广佛肇都市圈居前,之后则是苏锡常、天津、南京、长株潭、杭州、重庆等都市圈。需要注意的是,部分都市圈范围有重合,比如上海都市圈与杭州都市圈、苏锡常都市圈均有重合。

      在24个大都市圈之外,仍有两类三四线城市值得关注:第一类是东部地区经济实力比较突出的三四线城市,多数位于城市群内,如温州、珠海、中山、徐州、海口、金华、唐山、泰州、保定、威海等。珠海、中山是珠江口西岸中心城市,珠中江都市圈2017年末人口达958.7万,有望成为下一个千万级大都市圈。温州、威海均为经济发达的沿海工贸城市;唐山、保定分别位于京津冀协同发展空间布局“三轴”中的“京唐秦”、“京保石”产业发展带上。该类城市中唯一不在19大城市群的是淮海经济区中心城市徐州。2018年国家发改委《淮河生态经济带发展规划》“北部淮海经济区”部分明确提出:“着力提升徐州区域中心城市辐射带动能力,发挥连云港新亚欧大陆桥经济走廊东方起点和陆海交汇枢纽作用,推动淮海经济区协同发展”,并界定了淮海经济区包括以徐州为核心的3省10市,面积8.9万平方公里。

      第二类是距离中心大城市较远、辖区或腹地人口规模大的中西部地方性中心城市,如洛阳、包头、银川、鄂尔多斯、岳阳、绵阳、衡阳、安阳、广安、遂宁、柳州、南阳等,也多数位于城市群内。其中,银川为省会城市,洛阳、包头、鄂尔多斯、岳阳、衡阳、柳州、南阳分别为所在省份的省域副中心城市。此外,宜昌、常德、遵义、襄阳、赣州等地方性中心城市目前不在发展潜力百强城市之列,但从长远看仍具备一定发展潜质

    展开全文
  • 指定数据集路径dataset_path='./data'# 结果保存路径output_path='./output'if not os.path.exists(output_path): os.mkdir(output_path)# 公共列common_cols=['year','month']# 每个城市对应的文件名及所需分析的...
  • 点击上方“程序人生”,选择“置顶公众号”第一时间关注程序猿(媛)身边的故事五四青年节源于中国1919年反帝爱国的“五四运动”,五四爱国运动是一次彻底的反对帝国主义和封建主...
  • 通过全国2013-2016城市间投融资信息数据分析资本在各城市间的流动情况. 2.项目具体要求 1.查看全国城际控股型投资关系 要求:分别筛选出“同城投资”、“跨城投资”的TOP20,比较一下两类投资的数据分布 2....
  • 数据分析常用6种分析思路

    万次阅读 多人点赞 2019-03-19 14:20:57
    作为数据分析师,你是否常因为缺乏分析思路,而被以下问题影响到幸福感(甚至怀疑人生)? 1. 新上线某个产品,需要监控转化率效果,既要看总体情况,也要看细分渠道; 2. 策划营销活动,预算有限...
  • 做大数据开发好还是大数据分析比较好一些?哪个薪资高? 零基础学习大数据开发,还是大数据分析?哪方面比较好? 今天我们来从技术角度和薪资角度全面进行分析,方便你的选择。 技术区别 在做选择之前,需要了解...
  • 掌握这5个常用数据分析方法,做分析不再没思路 原创数据分析不是个事儿2020-04-08 16:00:36 想必做过数据分析的同学一定接触过很多分析方法,比如漏斗法,同期群,A/B测试等等。并且由于不同版本的演绎,造成了...
  • 数据分析思路

    万次阅读 多人点赞 2018-09-14 17:08:13
    数据分析是在当今每个企业都所需要涉及的一门学科,数据分析的书随便一搜就会有太多教大家如何的去使用。大致能把搜到的书分为两类:第一类讲数据理论统计学相关的,第二类就是数据分析工具应用类型的。而大部分我们...
  • 数据挖掘与数据分析

    万次阅读 多人点赞 2019-12-13 10:21:13
    一、数据挖掘和数据分析概述 数据挖掘和数据分析都是从数据中提取一些有价值的信息,二者有很多联系,但是二者的侧重点和实现手法有所区分。 数据挖掘和数据分析的不同之处: 1、在应用工具上,数据挖掘一般要通过...
  • 数据分析的工作流程

    万次阅读 2018-12-04 14:26:59
    数据分析的工作流程1. 定义问题 在做具体的分析前,你需要确定要分析的问题是什么?你想得出哪些结论?比如某地区空气质量变化的趋势是什么?影响公司销售额增长的关键因素是什么?生产环节中影响产能和质量的核心...
  • 数据分析-PART2--10大数据分析模型

    万次阅读 多人点赞 2019-04-25 07:41:55
    数据分析-PART0--数据分析综合 数据分析-PART1--数据获取和步骤 数据分析-PART2--10大数据分析模型 数据分析-PART3--数据分析常用指标 数据分析-PART4--数据分析方法 数据分析-PART5--数据分析可视化 数据分析...
  • 作为一个学习用Python进行数据分析的新手来说,通过本文来记录分享一些我在用Python中的pandas、numpy来分析Excel表中数据的数据清洗和整理的工作,目的是熟悉numpy以及pandas基础操作,所有操作利用Excel均可以方便...
  • 从零开始用Python3做数据分析

    万次阅读 多人点赞 2018-05-19 13:35:59
    ​点击关注 异步图书,置顶公众号每天与你分享 IT好书 技术干货 职场知识​​参与文末话题讨论,每日赠送异步图书——异步小编​欢迎来到Python数据分析的世界!如今,Python已成为数据分析和数据科学事实上的标准...
  • 本门课程作为电商数据分析师的开篇导论,将从数据分析师的岗位及透过岗位理解业务为切入点,讲解数据分析师的职业诉求,发展路径,及数据分析在业务中的存在价值,如何通过数据分析理解业务的价值和发现机会点。...
  • 一个合格的数据分析师要有怎样的知识体系?下面九个方面必不可少:统计相关的数学知识数学知识是数据分析师的基础知识。对于初级数据分析师,了解一些描述统计相关的基础内容,有一定的公式计算能力即可,了解常用...
1 2 3 4 5 ... 20
收藏数 2,781,777
精华内容 1,112,710
关键字:

数据分析