精华内容
下载资源
问答
  • 一个简单的开源数据收集系统,可以使用Arduino板从不同的传感器收集数据。 JDAC是一个Java应用程序,它连接到Arduino,实时绘制数据并允许用户以CSV或PNG格式导出数据。 有关该项目的更多信息,请参见 Java应用 应用...
  • SPSS(十九)SPSS之时间序列模型(图文+数据集)

    万次阅读 多人点赞 2019-06-17 22:32:38
    SPSS(十九)SPSS之时间序列模型(图文+数据集) 时间序列是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。正如人们常说,人生的出场顺序很重要,时间序列中隐藏着一些过去与未来的关系。时间序列...

    SPSS(十九)SPSS之时间序列模型(图文+数据集)

    时间序列是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。正如人们常说,人生的出场顺序很重要,时间序列中隐藏着一些过去与未来的关系。时间序列分析试图通过研究过去来预测未来。

    时间序列分析在工程、金融、科技等众多领域有着广泛的应用。在大数据时代,时间序列分析已经成为 AI 技术的一个分支,通过将时间序列分析与分类模型相结合,更好的应用于数据检测、预测等场景。

    时间序列模型简介

    • 依时间顺序排列起来的一系列观测值(观测值之间不独立)
    • 它考虑的不是变量间的因果关系,而是重点考察变量在时间方面的发展变化规律,并为之建立数学模型
    • 使用时间序列模型的前提:有足够长的数据序列;数据序列的变动是稳定而规律的

    另外一种理解方式:假如我们对一件事情研究其背后规律很久的话,可以收集到很多的自变量/影响因素去研究与因变量之间的关系,但是由于各种原因我们做不到,我们只能用一个t(时间)来替代所有的影响因素来研究自变量是如何变化的

     

    时间序列分析面临的问题

    时序应该在现实生活中应用的很广,但是为什么不常用这个模型呢?

    • 基础统计数据原因(数据收集)

    报表系统——质量问题
    统计口径——不统一
    范围变化、区域划分——变化

    • 理论和技术培训原因 

    之前没有好的工具来实现时间序列模型

     

    时间序列的方法分类

    • Time domain(最为常见的方法):将时间序列看成是过去一些点的函数,或者认为序列具有随时间系统变化的趋势,它可以用不多的参数来加以描述,或者说可以通过差分、周期等还原成随机序列。
    • Frequency domain:认为时间序列是由数个正弦波成份叠加而成,当序列的确来自一些周期函数集合时,该方法特别有用。 比如心电图
       

    时间序列的构成

    并不是每个序列都包含所有4种成分。比如以年为时间单位的序列就不会有季节变化;
    一些较短的序列也看不出循环变化。所以在分析的时候得具体情况具体分析。 

    • 长期趋势

    指一种长期的变化趋势。它采取一种全局的视角,不考虑序列局部的波动

    下图,整体呈下降趋势

    • 季节变化(Season)

    反映一种周期性的变化一般在一年中完成
    虽然称作“季节”,但是周期并不一定是季度,也可以是月、周等其它能在一年内完成的周期。因为,大多数的周期都以季节的形式出现,所以称作季节变化

    比较典型的季节变化例子:圣诞节效应;冷饮的销售情况

    • 循环变化(Cyclic)

    循环跨度超年

    指一种较长时间的周期变化。一般来说循环时间为2-15年。循环变化一般会出现波峰和波谷,呈现一种循环往复的现象。 
    比如:经济危机 

    • 不规则变化(error) 

    指时间序列中无法预计的部分,也可以理解为误差
    序列的随机波动 
    突发事件引起的 
    它是无法预测的 
    在分析中往往又将其称为白噪声

    它是时间序列中除去趋势、季节变化和自相关性之后的剩余随机扰动。由于时间序列存在不确定性,随机噪声总是夹杂在时间序列中,致使时间序列表现出某种震荡式的无规律运动。
    比如:911事件

     

    时间序列分析对长度的要求

    • 不同的序列分析方法对时间序列分析对长度不一样,建模过程一般都会做差分,差分会损失信息,差分得越多,相应要求的时间序列越长
    • 如果是稳定序列的话,历史数据越多,对预测的帮助越大
    • 如果存在周期,一般需要4个周期以上数理上认为应当在20个周期以上

           假如只有两三个周期,那周期性的分析就没有太大作用了

     

    对于时间序列问题有哪些基本分析思路

    看到数据其实不一定要上最复杂的方法

    • 平滑与季节分解(遇到比较简单的序列)

    用移动平均的方式消除波动,反映出主要的趋势

    • 回归模型

    如果在序列分析中我们考虑到自变量的话,根据历史数据建立相应的回归模型用于预测。甚至来说可以直接把时间当做自变量用于预测,当然我们知道回归时候要求残差是独立的,假如检验出来是非独立的话,我们可以去建一个自回归模型

    • ARIMA

    如果时间序列变化太复杂,我们可以采用ARIMA建模,现在最强大的时序建模方法。真正的时间序列模型建模分析方法
     

    平滑与季节分解

    • 是利用时间序列资料进行短期预测的一种方法。它的基本思想是:除去一些不规则变化后,时间序列将剩下一些基本的变化模式,而这种变化模式将延续到将来。
    • 描述时间序列数据的变化规律和行为,不去试图解释和理解这种变化的原因。例如:您可能发现在过去的一年里,三月和九月都会出现销售的高峰,您可能希望继续保持这样,尽管您不知道为什么。
    • 平滑的主要目的就是除去时间序列的不规则变化,把时间序列的基本变化模式突现出来,作为短期预测的基础。因此也有人把平滑称作“修匀”。
    • 平滑的方法很多。广义上说,可以认为回归也是一种平滑。因为拟合回归曲线可以把杂乱的观测数据修匀得到连续而光滑的曲线。
    • 移动平均和移动中位数等这些不同的平滑技术又被称为平滑器。平滑处理后,可以得到一些新的序列。不同的平滑器得到的新序列是不同的。选择合适的平滑器,寻求最佳的预测效果是平滑处理的关键。

     

    案例:NRC数据的建模预测

    美国1947年1月到1969年12月住宅建筑的数据,分析目的是希望能过通过历史数据来预测1970年全年的情况。

    数据集

    nrc是我们准备用于分析的变量

    nrc2又新增了12个月的数据,可以用来评价我们的预测效果

    556	556
    528	528
    545	545
    607	607
    701	701
    785	785
    874	874
    950	950
    1006	1006
    1093	1093
    1135	1135
    1070	1070
    891	891
    757	757
    874	874
    1028	1028
    1168	1168
    1257	1257
    1294	1294
    1305	1305
    1273	1273
    1203	1203
    1100	1100
    978	978
    846	846
    731	731
    763	763
    844	844
    981	981
    1086	1086
    1147	1147
    1171	1171
    1207	1207
    1238	1238
    1241	1241
    1171	1171
    1077	1077
    1031	1031
    1089	1089
    1276	1276
    1499	1499
    1703	1703
    1827	1827
    1898	1898
    1900	1900
    1785	1785
    1614	1614
    1427	1427
    1289	1289
    1188	1188
    1229	1229
    1288	1288
    1324	1324
    1399	1399
    1428	1428
    1409	1409
    1400	1400
    1397	1397
    1330	1330
    1200	1200
    1015	1015
    963	963
    1149	1149
    1234	1234
    1346	1346
    1437	1437
    1472	1472
    1486	1486
    1473	1473
    1481	1481
    1438	1438
    1309	1309
    1131	1131
    1057	1057
    1206	1206
    1363	1363
    1431	1431
    1570	1570
    1577	1577
    1550	1550
    1514	1514
    1481	1481
    1420	1420
    1294	1294
    1104	1104
    1029	1029
    1167	1167
    1347	1347
    1517	1517
    1627	1627
    1717	1717
    1770	1770
    1783	1783
    1759	1759
    1717	1717
    1650	1650
    1473	1473
    1379	1379
    1562	1562
    1753	1753
    1925	1925
    2064	2064
    2098	2098
    2082	2082
    2051	2051
    1983	1983
    1851	1851
    1656	1656
    1392	1392
    1305	1305
    1457	1457
    1618	1618
    1753	1753
    1884	1884
    1908	1908
    1895	1895
    1860	1860
    1798	1798
    1741	1741
    1567	1567
    1324	1324
    1206	1206
    1350	1350
    1486	1486
    1604	1604
    1718	1718
    1767	1767
    1796	1796
    1787	1787
    1761	1761
    1694	1694
    1513	1513
    1292	1292
    1192	1192
    1302	1302
    1421	1421
    1550	1550
    1702	1702
    1804	1804
    1876	1876
    1907	1907
    1954	1954
    1957	1957
    1832	1832
    1606	1606
    1493	1493
    1676	1676
    1907	1907
    2091	2091
    2253	2253
    2350	2350
    2358	2358
    2310	2310
    2232	2232
    2092	2092
    1883	1883
    1588	1588
    1408	1408
    1613	1613
    1804	1804
    1935	1935
    2112	2112
    2039	2039
    1982	1982
    1931	1931
    1860	1860
    1790	1790
    1644	1644
    1378	1378
    1221	1221
    1459	1459
    1720	1720
    1860	1860
    2059	2059
    2053	2053
    2053	2053
    2055	2055
    2041	2041
    1974	1974
    1807	1807
    1543	1543
    1368	1368
    1605	1605
    1906	1906
    2141	2141
    2377	2377
    2357	2357
    2377	2377
    2330	2330
    2210	2210
    2113	2113
    1965	1965
    1686	1686
    1492	1492
    1666	1666
    1950	1950
    2206	2206
    2421	2421
    2517	2517
    2553	2553
    2516	2516
    2500	2500
    2450	2450
    2230	2230
    1867	1867
    1678	1678
    1866	1866
    2068	2068
    2191	2191
    2385	2385
    2518	2518
    2541	2541
    2439	2439
    2327	2327
    2260	2260
    2118	2118
    1834	1834
    1639	1639
    1782	1782
    2000	2000
    2203	2203
    2429	2429
    2550	2550
    2561	2561
    2473	2473
    2377	2377
    2284	2284
    2136	2136
    1848	1848
    1644	1644
    1781	1781
    1979	1979
    2124	2124
    2287	2287
    2387	2387
    2351	2351
    2202	2202
    1978	1978
    1785	1785
    1614	1614
    1368	1368
    1248	1248
    1405	1405
    1613	1613
    1836	1836
    2107	2107
    2336	2336
    2471	2471
    2446	2446
    2375	2375
    2310	2310
    2191	2191
    1859	1859
    1655	1655
    1885	1885
    2262	2262
    2518	2518
    2628	2628
    2721	2721
    2790	2790
    2780	2780
    2678	2678
    2593	2593
    2454	2454
    2133	2133
    1940	1940
    2195	2195
    2540	2540
    2810	2810
    2962	2962
    2974	2974
    2880	2880
    2763	2763
    2648	2648
    2482	2482
    2288	2288
    	1961
    	1765
    	1986
    	2297
    	2485
    	2592
    	2650
    	2707
    	2721
    	2747
    	2735
    	2627


    时间序列操作的基本步骤

    • 预处理过程

    缺失值的填补 

    一般这两种方法我们比较常用


    时间变量的定义(spss对数据集进行了特殊标记,让spss知道其为序列数据,并非新增三个变量那么简单,必须是刚才进行下面的操作)


    时间序列的平稳化

    观测原始序列是什么分布,时间刻度这一块随便选一个时间自变量

    发现其有长期趋势及季节变化(大概一年)


    一次差分(假如序列匀速上升的话,一次差分序列后应该是平的)

    继续查看其变化(一次差分作为变量)

    确实序列变平了,但是随着时间增加季节变换还是存在的


    季节差分(把周期性也干掉),一阶:相邻的两个季节做相减

    看季节差分分布分布状况

    看到下面的序列,无长期趋势、无季节变换,可认为是一个比较平稳的序列了

    但是刚才上面在做一次差分后的序列,可以看出其序列随着时间增长离散程度会慢慢变大,后续分析可以考虑这一点,可以做变量变换。

    其实刚才上面的步骤不用那么麻烦,在序列图中即可观察

    当前周期:12在哪里设置呢?(在我们刚才定义日期选取的)

     

    关于数据平稳化问题:(非常详细的理论基础)

    大家可以参考

    https://zhuanlan.zhihu.com/p/60023855

    https://zhuanlan.zhihu.com/p/60648709

     

    时间序列趋势的图形化观察

    • Sequence Chart:序列图

    实际上就是一种特殊的线图

    • Autocorrelation Chart:做单个序列,任意滞后(包括负的滞后,也就是超前)的自相关和偏相关图

    对序列图的初步观察结果作进一步确认(检验其是不是白噪声序列)
    重点关心主要的相关趋势,然后再对模型进一步修正

    刚才我们认为做了一次差分和季节差分真的为平稳序列了吗?

    滞后n阶:隔了n个数据的自相关性

    Sig.<0.05,证明存在自相关的,不都是白噪声

    为了方便查看,给出了图,1到5阶都是存在统计学意义的

    自相关系数是有传递性的问题在里面的,spss就会计算偏自相关系数,屏蔽传递的效应后,看剩余的关联是否还存在

    自相关拖尾,偏自相关也拖尾,这两个是为了知道我们进行建模的

    自相关图:自回归系数的变化
    偏相关图:偏回归系数的变化

    假如他是以下模型,应满足下面的特征

    实际用起来,spss会提供一个自动分析的方法

    模型拟合
    几乎均可包含在ARIMA模型族中
    寻找适当的参数是一个反复尝试的过程

    生成 ARIMA 模型的基本步骤:

    1. 对序列绘图,进行 ADF 检验,观察序列是否平稳;对于非平稳时间序列要先进行 d 阶差分,转化为平稳时间序列;
    2. 经过第一步处理,已经得到平稳时间序列。要对平稳时间序列分别求得其自相关系数(ACF)和偏自相关系数(PACF),通过对自相关图和偏自相关图的分析,得到最佳的阶数p、q;
    3. 由以上得到的d、q、p ,得到 ARIMA 模型。然后开始对得到的模型进行模型检验。

    专家建模器:会在指数平滑模型和ARIMA模型里面选取

     

    R方相对于平稳的R方来说,是比较过于乐观的,假如数据是有波动趋势的,我们将趋势解释掉之后,占相当大的变异解释度进去了,平稳的R方比较客观

    RMSE(残差均方)

    MAPE(相对误差)

    MAXAPE(最大值相对误差)

    MAE(绝对误差)

    MAXAE(最大值绝对误差)

    正态化BIC(比较专业化的指标)

     

    当前模型剩下来的这块能否当成白噪声?

    H0:白噪声序列

    Sig.>0.05,剩下来的确实是白噪声序列

     

     

    如何让其做预测?怎么用时间序列?

    由于SPSS的一个小BUG,变量名前缀要修改一下,不能是中文

    对比一下原始序列和预测值效果

    我们想预测到久一点呢?

    假如我们有1970年的真实数据了,对比一下模型预测及真实数据差别

    展开全文
  • 2018山西专升本数据结构知识总结

    万次阅读 多人点赞 2018-06-29 19:41:36
    2018山西专升本数据结构知识总结

    概论

    名词解释:

    数据结构:是相互之间存在一种或多种特定关系的数据元素的集合,是计算机存储和组织数据的方式,它分为三个方面,即数据的逻辑结构,数据的物理结构,数据的操作.

    数据项:是数据不可分割的最小单位,用它可以识别一个或一组数据,一个数据元素可由若干数据项组成.

    数据元素(记录):是数据的基本单位,在计算机程序中通常作为一个整体进行考虑和处理,一个数据元素可由若干数据项组成.

    数据对象:是性质相同的数据元素的集合,是数据的一个子集.

    数据:是对客观事物的符号表示,在计算机科学中是指所有能输入到计算机中并被计算机程序处理的符号的总称,是计算机化的信息.

    数据类型:是一个值的集合以及定义在这个值集上的一组操作,可分为原子类型结构类型.

    抽象数据类型:是基于一类逻辑关系的数据类型以及定义在这个类型之上的一组操作.

    逻辑结构:是数据元素之间逻辑关系的描述.

    物理结构(存储结构):是指数据的逻辑结构在计算机中的映像(又称表示),即数据结构在计算机中的存储方法.

    算法:是对特定问题求解步骤的一种描述,它是指令的有限序列,其中每一条指令表示一个或多个操作.

    时间复杂度:算法执行所需时间的量度.

    空间复杂度:算法执行所需存储空间的量度.

    存储密度:指结点数据本身所占存储量和整个结构所占存储量之比.

    填空题:

    程序设计的一些基本原则:分解.抽象信息隐蔽.

    根据数据元素之间关系的不同特性,有四类基本的数据结构:集合结构,线性结构,树型结构,图形结构(网状结构).

    数据的存储结构有:顺序存储结构.链式(链接)存储结构.索引存储结构,散列存储结构.常用的两种存储结构:顺序存储结构链式存储结构.

    算法的五个特性:确定性.有穷性.可行性.输入输出.(可以有零个或多个数据输入,但必须至少有一个输出数据)

    算法设计的要求:正确性,可读性,稳健性,高效率低存储量.

    沃思公式:程序=算法+数据结构.

    (算法分析)衡量算法的两个标准:时间复杂度空间复杂度.

    一个算法的设计取决于所选的逻辑结构.

    一个算法的实现取决于所选的存储结构.

    结构化程序设计思想的要求:自顶向下.逐步细化.模块化设计.结构化编程.

    简答题:

    顺序存储结构的特点?(顺序存储和链式存储的优缺点)

    1.结点中只存放数据元素本身的信息,无附加内容.

    2.可直接存取数据元素.

    3.存取操作速度较快.

    4.插入.删除数据元素时,由于需要保持数据元素之间的逻辑关系,必须大量移动元素,因此实现起来较慢.

    5.顺序存储是一种静态结构,存储密度大,空间利用率低,预分配空间大小难以确定.

    链式存储结构的特点?(顺序存储和链式存储的优缺点)

    1.结点中除存放数据元素本身的信息外,还需存放附加的指针.

    2.不能直接存取数据元素,需顺链查找,存取速度较慢.

    3.插入.删除元素时不必移动其他元素,速度较快.

    4.链式存储是一种动态存储结构,空间利用率高,存储密度小,不存在预分配空间问题.

    线性结构与非线性结构的特点(或差异)?

    线性结构的特点是:除第一个元素和最后一个元素外,每个数据元素都有唯一的前驱和唯一的后继,第一个元素没有前驱,最后一个元素没有后继,关系是一对一的.

    非线性结构的特点是:表示结点间关系的前驱后继不具有唯一性,结点间是一对多或多对多的关系.

    逻辑结构与物理结构的区别和联系?

    1.数据的物理结构也称为存储结构.

    2.数据的逻辑结构仅考虑数据之间的逻辑关系.

    3.数据的物理结构是数据的逻辑结构在计算机中的映像.

    4.数据的逻辑结构独立于数据的存储介质.

    数据结构与数据类型的区别和联系?

    数据结构是相互之间存在一种或多种特定关系的数据元素的集合,是计算机存储和组织数据的方式,它分为三个方面,即数据的逻辑结构,数据的物理结构,数据的操作.它偏向于逻辑方面,而数据类型是一个值的集合以及定义在这个值集上的一组操作,可分为原子类型和结构类型.它偏向于物理方面.

    线性表

    名词解释:

    线性表:是最常用,最简单的一种数据结构,一个线性表是n个数据元素的有限序列,除首尾元素外,每个元素有唯一的前驱和唯一的后继.

    顺序表:采用顺序存储结构的线性表通常称为顺序表.

    链表:采用链式存储结构的线性表通常称为链表.

    结点:由数据元素和指示其后继结点地址的信息组成的存储映像称为结点.

    表长:表中元素的个数称为表的表长.

    循环链表:是另一种形式的链式存储结构,它的特点是表中最后一个结点的指针域指向头结点,整个链表形成一个环.

    双链表:采用链式存储结构的线性表,每个结点除一个数据域外,还有两个指针域,其一指向直接前驱,另一指向直接后继.

    静态单链表:是利用一块连续的空间,按链表的存储方式组织数据,按顺序存储结构分配空间,所构成的一种链表.

    头指针:是指向链表表头结点的指针,只要链表存在,该指针始终不会改变,单链表由头指针唯一确定,因此单链表可以用头指针的名字来命名.

    头结点:在链表的开始结点之前附加的一个结点,是链表的表头,当链表不空时,其内的指针指向链表的第一个结点,当链表是空链表是,该指针为空指针.

    填空题:

    线性表的两种基本的存储结构:顺序存储结构链式存储结构.

    实现角度看,链表可分为静态链表动态链表.

    链接方式的角度看,链表可分为单链表,循环链表,双链表.

    添加哨兵可以保持首指针的稳定性,方便表示空表.

    一元多项式的表示和相加可以使用链表实现.

    简答题:

    顺序表的优缺点?

    优点:    1.无需为表示结点间的逻辑关系而增加额外的存储空间,存储密度大.

                2.可随机存取表中的任一元素,查找方便.

    缺点:    1.插入,删除运算不方便,须移动大量元素,效率较低.

                2.存在预分配空间问题.

    链表的优缺点?

    优点:    1.插入,删除操作很方便.

                2.空间利用率高.

    缺点:    1.查找不方便,需顺链查找

                2.存储密度小.

    顺序表和链表的区别和联系及适用范围?

    顺序表:    内存中地址连续

                   长度一般不可变更

                   支持随机查找,可在O(1)内查找元素

                   适用于需要大量访问元素的,而少量增删元素的程序.

    链表:        内存中地址连续或非连续都可以

                    长度可实时变化

                    不支持随机查找,查找元素的时间复杂度为O(n)

                    适用于需要大量增删元素,而对访问元素几乎无要求的程序.

    头指针和头结点的作用?

    1.头指针是指向链表表头结点的指针,只要链表存在,该指针就不会变化,已知该指针便已知该链表.

    2.头结点是在链表的开始结点之前夫妇家的一个结点,当链表是空链表时,该指针为空指针,因此空表和非空表的处理也就统一了.

    简述在单循环链表上尾指针取代头指针的作用?

    在用头指针表示的单循环链表中,找开始结点a1的时间是O(1),然而要找终端结点an则需要从头指针开始遍历整个链表,其时间是O(n) ,在很多实际问题中,表的操作常常是在表尾进行的,此时头指针表示的单循环链表就显得不够方便,如果改用尾指针来表示单循环链表,则查找开始结点a1和终端结点an都很方便,查找时间都是O(1).

    栈和队列

     

    名词解释:

     

    :也叫后进先出表,是限定仅在表尾进行插入和删除操作的线性表,表尾端称为栈顶,表头端称为栈底,不含元素的空表称为空栈,

    顺序栈:采用顺序存储结构的栈称为顺序栈.

    链栈:采用链式存储结构的栈称为链栈.

    队列:是一种先进先出的线性表,它只允许在表的一段进行插入,而另一端删除元素,允许插入的一端叫做队尾,允许删除的一端称为队首.

    链队列:用链表示的队列,需要两个指针分别指示队头和队尾,为了操作方便,也给链队列添加一个哨兵结点.

    循环队列:队列是"先进先出表",随着入队出队的进行,会使整个队列整体向后移动,当队尾指针移到最后,若再有元素入队就会出现"假溢出",因为此时队头部分还有空间可用,循环队列是将队列的数据区看成头尾相接的循环结构,可解决"假溢出"现象.

    双端队列:是限定插入,删除在表的两端进行的线性表,这两端分别称为端点.

    填空题:

    栈的两种存储方式:顺序存储链式存储.

    栈满的判断条件:s.top==stack.size.

    栈空的判断条件:s.top==0.

    栈满入栈栈上溢,栈空出栈栈下溢.

    链栈使用多栈共享技术时,可使用静态链表结构实现.

    队列的两种存储方式:顺序存储链式存储.

    循环队列采用少用一个元素存储空间的办法下,判断队列满的条件:front==(rear+1)%size.

    循环队列判断队列满的方法有:少用一个元素存储空间,增设一个标志量,使用计数器.

    队列的应用:杨辉三角.

    栈的应用:数制转换,括号匹配,表达式求值,汉诺塔(递归用栈实现).

    简答题:

    什么是多栈共享技术?

    在一个程序中经常会同时使用多个栈,使用顺序存储结构的栈,空间大小难以估计,这样使得有的栈已出,有的栈还有空闲空间,可以让多个栈共享一个足够大的连续向量空间(数组),通过利用栈的动态特性來使其存储空间互相补充,这就是多栈的共享技术,两个栈共享空间,主要利用了"栈底位置不变,栈顶位置动态变化"的特性.

    与顺序队列相比,循环队列有哪些优点?

    可解决假溢出现象(内容自行拓展).

    简述线性表,栈,队列的区别和联系?

    相同点:    都是线性结构,都是逻辑结构的概念,都可以用顺序存储或链式存储,栈和队列是两种特殊的线性表,即受限的线性表,只对插入和删除运算加以限制.

    不同点:    1.运算规则不同,线性表为随机存取,而栈只允许在一端进行插入,删除运算,因而是后进先出表,队列只允许在一端进行插入,另一端删除运算,因而是先进先出表.

                    2.用途不同,堆栈用于子程调用和保护现场,队列用于多道作业处理,指令寄存及其他运算等.

    名词解释:

    :是由零个或多个字符组成的有限序列.

    子串:串中任意个连续的字符组成的子序列称作该串的子串.

    主串:包含子串的串相应的称为主串.

    子串在主串中的位置:子串的第一个字符在主串中的位置表示.

    空串:长度为零的串称为空串.

    空格串:串中元素均为空格的串称为空格串.

    串相等:长度相等且对应位置字符都相等.

    填空题:

    在程序中,串分为串常量串变量.

    串的存储结构:顺序存储结构,链式存储结构,堆存储结构.

    串的应用:文本编辑.

    简答题:

    串和线性表的区别?

    串的逻辑结构与线性表极为相似,区别仅在于串的数据对象约束为字符集,然而串的操作与线性表有很大的差别,在线性表基本操作中,大多以单个元素作为操作对象;而在串的基本操作中通常以"串的整体"作为操作对象.

    简述静态分配的顺序串与动态分配的顺序串的区别?

    程序运行前被分配以一个给定大小的数组空间的顺序串称为静态顺序串,在程序运行过程中,动态分配空间能以链表形式存在的顺序串称为动态顺序串,静态串在内存一片连续的数据区中,动态串在内存堆中.

    串的链式存储与串的顺序存储相比,在哪些操作上效率更高?

    插入,删除,因为无需移动其他元素(内容自行扩充).

    数组与广义表

    名词解释:

    广义表:是由零个或多个单元素或子表所构成的有限序列,是线性表的推广,也有人称其为列表.

    数组:类型一致的有限个数据元素按顺序连续存储.

    矩阵的压缩存储:有的矩阵中有许多值相同元素或者是零元素,为了节省存储空间对这类矩阵采用多个值相同的元素只分配一个存储空间,有时零元素不存储的存储策略,称为矩阵的压缩存储.

    特殊矩阵:值相同的元素或者零元素在矩阵中的分布有一定规律的矩阵称为特殊矩阵.

    稀疏矩阵:非零的数据元素个数很少的矩阵称为稀疏矩阵.

    对称矩阵:一个n阶方阵,若满足aij=aji,则称该矩阵为对称矩阵.

    三角矩阵:主对角线上方和下方的元素(不包括对角线)均为常数或零元素的矩阵.

    行表:记录稀疏矩阵中每行非零元素在三元组表中的起始位置的表.

    三元组表:若线性表顺序存储的每一个结点均是三元组,则该线性表的存储结构称为三元组表.

    带状矩阵:所有非零元素均集中在以主对角线为中心的带状区域的矩阵.

    填空题:

    数组的两种存储方式:顺序存储链式存储.

    数组的顺序存储有两种方式:按行存储按列存储.

    稀疏矩阵可以采用三元组表十字链表来存储.

    简答题:

    广义表和线性表的区别?

    1.广义表是线性表的推广,是由零个或多个单元素或子表所构成的有限序列.

    2.线性表的成分都是结构上不可分割的单个数据元素,而广义表的成分既可以是单元素,也可以是有结构的表,其定义是递归的定义.

    树和二叉树

    名词解释:

    :是n个结点的有限集合,n≥0,有且只有一个称为根的结点,根结点无前驱.

    森林:m(m≥1)棵互不相交的树的集合.

    有序树:树中结点的各子树看成是从左至右依次有序的,且不能交换.

    二叉树:是一种树型的结构,它的特点是每个结点之多有两棵子树,且有左右之分,不可任意颠倒.

    完全二叉树:深度为k的,有n个结点的二叉树,当且仅当其每一个结点都与深度为k的满二叉树中编号从1至n的结点一一对应时.

    满二叉树:是一棵深度为k的,且有(2^k)-1个结点的二叉树.

    遍历二叉树:是按照某种搜索路径巡访二叉树中的每个结点,使得这些结点均被访问一次.

    线索二叉树:由每个结点中包含左指针,左标志位,数据域,右标志位,右指针五部分组成的二叉链表,叫做线索链表,指向前驱或后继的指针叫做线索,以二叉树某一种遍历顺序给空指针加线索的过程叫做线索化,线索化了的二叉树称为线索二叉树.

    哈夫曼树:又称最优二叉树,是一类带权路径长度最短的树.

    哈夫曼编码:在哈夫曼树中,约定左分支代表0,右分支代表1,把叶子结点到根结点的路径上的左右分支代表的码从下至上一次连接起来,组成的字符串称为该叶子结点的哈夫曼编码,这就是哈夫曼编码.

    二叉排序树:或者是空树,或者是符合以下性质的二叉树.

                        1.若它的左子树不空,则左子树上所有结点均小于它的根结点值.

                        2.若它的右子树不空,则右子树上所有结点均大于它的根结点值.

    平衡二叉排序树(AVL树):或者是空树,或者是符合一下性质的二叉排序树.

                        1.左子树和右子树的高度之差的绝对值小于等于1.

                        2.左子树和右子树也是平衡二叉排序树.

    B-树(B树):略,看书.

    填空题:

    在二叉树中,第i层结点最多为2^k-1个.

    深度为k的二叉树中,结点总数最多为(2^k)-1个.

    二叉树中,n0=n2+1,n2=n0-1(n0为二叉树中度为0的结点的个数,n2为二叉树中度为2的结点的个数).

    有n个结点的完全二叉树,深度为k,则k=log2n+1.(log以2为底,括号是向下取整,不是方括号)

    k层的完全二叉树至少有2^k-2个叶子结点.

    二叉树的两种存储结构:顺序存储结构链式存储结构.

    树的三种常用的存储方法:孩子表示法,双亲表示法孩子兄弟表示法.

    树的遍历方法:先根遍历后根遍历.

    简答题:

    非线性结构的特点?

    表示结点间关系的前驱后继不具有唯一性,结点间是一对多或多对多的关系.

    二叉树的五种基本形态?

    (1)空二叉树——如图(a);

    (2)只有一个根结点的二叉树——如图(b);

    (3)只有左子树——如图(c);

    (4)只有右子树——如图(d);

    (5)完全二叉树——如图(e)。

    只有三个结点的二叉树的五种形式?

    因为二叉树是有序树,所有有左右之分,这是五棵不同的二叉树,但若下列五棵是树,不是二叉树,则后面四种为同一棵树.

     

    名词解释:

    :图G由两个集合V和E组成,记为G=(V,E),其中V是顶点的有穷非空集合,E是由V中顶点的序偶组成的有穷集,这些序偶称为边或弧.

    顶点:图中的数据元素称为顶点.

    完全图:边数恰好等于n(n-1)/2的n个顶点的无向图称为完全图(无向图中任意两个顶点之间都有一条边相连,称该图为完全图).

    有向完全图:有n(n-1)条边的有向图称为有向完全图(图中每个顶点和其余n-1个顶点都有弧相连).

    入度:以顶点V为头的弧的数目称为V的入度.

    出度:以顶点V为尾的弧的数目称为V的出度.

    连通图:在无向图中,任意两个顶点之间都有路径相通.

    强连通图:在有向图中,任意两个顶点之间都有来回路径相通.

    生成树:生成树是无向连通图的一个极小连通子图,它含有图中的全部顶点和使任意顶点都连通的最少的边.

    邻接矩阵:表示图中结点之间关系的矩阵称为邻接矩阵.

    邻接表:由顶点数据表和表示数据关系的边(弧)构成的表.

    十字链表:可以把它看成是将有向图的邻接表和逆邻接表结合起来形成的一种存储形式.

    图的遍历:从某一顶点出发按序访问图中所有结点,且使每个结点仅被访问一次.

    最小生成树:无向网中边上权值之和为最小的生成树.

    DAG:有向无环网.

    拓扑排序:由某个集合上的一个偏序得到该集合上一个全序的操作称为拓扑排序.

    关键路径:在AOE网中,从源点到汇点的最长路径称为关键路径.

    AOE网:用顶点表示事件,用弧表示活动,弧的权值表示活动所需的时间,构造的有向网称为AOE网.

    简单路径:一条路径上除了开始顶点和结束顶点外,其余顶点均不相同.

    弧头:边的终点称为弧头.

    弧尾:边的始点称为弧尾.

    填空题:

    边很少的图称为稀疏图,反之称为稠密图.

    有向图中,所有顶点的入度与出度的和等于边个数的2倍.

    图的存储方法:邻接矩阵,邻接表,邻接多重表,十字链表边集数组.

    图的深度优先搜索类似于树的先根遍历.

    图的广度优先搜索类似于树的层次遍历.

    连通图→深度优先搜索遍历→深度搜索生成树

    连通图→广度优先搜索遍历→广度搜索生成树

    简答题:

    邻接矩阵表示法的特点?

    1.对于无向图而言,它的邻接矩阵是对称矩阵,因此可以采用特殊矩阵的压缩存储法,但对于有向图而言,其中的弧是由方向的,因此有向图的邻接矩阵不一定是对称矩阵,对于有向图的邻接矩阵的存储则需要n*n个存储空间.

    2.采用邻接矩阵表示法,便于判断图中任意两个顶点之间是否有边相连,即根据邻接矩阵中的信息来判断,另外还便于求得各个顶点的度,对于无向图而言,其邻接矩阵第i行元素之和就是图中第i个顶点的度.

    邻接表表示法的特点?

    1.n个顶点,e条边的无向图,若采取邻接表作为存储结构,需要n个顶点数据和2e个表示边的结点,显然在边很稀疏的情况下,用邻接表存储所需的空间比邻接矩阵所需的空间少.

    2.无向图的度,在无向图的邻接表中,顶点Vi的度恰好就是第i个边链表上结点的个数.

    3.有向图的度,在有向图中,第i个边链表上结点的个数就是顶点Vi的出度,只需通过表头向量表中找到第i个顶点的边链表的头指针,实现顺链查找计数即可.

    DFS(深度优先搜索遍历)的基本思路?

    假设初始状态是图中所有顶点均未被访问过,则深度优先搜索可从某个顶点V出发,首先访问此顶点(称此顶点为初始点),然后依次从V的任一个未被访问的邻接点出发进行深度优先搜索遍历,直到图中所有与V有路径相通的顶点都被访问到,若此时图中尚有顶点未被访问,则另选图中一个未被访问的顶点作为初始点,重复上述步骤,直到图中所有顶点都被访问过为止.

    BFS(广度优先搜索遍历)的基本思路?

    1.从图中某个顶点V0出发,首先访问V0,依次访问V0的各个未被访问的邻接点.

    2.分别从这些邻接点(端结点)出发,依次访问各个未被访问的邻接点,访问时应保证:如果Vi和Vk为当前结点,且Vi在Vk之前被访问,则Vi的所有未被访问的邻接点应在Vk的所有未被访问的邻接点之前访问.

    3.重复步骤2,直到所有结点均没有未被访问的邻接点.

    4.若此时还有顶点未被访问,则选一个未被访问的顶点作为起始点,重复上述过程,直至所有顶点均被访问过为止.

    查找

     

    名词解释:

    关键字:是数据元素中某个数据项的值,用它可以识别一个或一组数据元素.

    查找:根据给定的关键字的值,检索某个与该值相等的数据元素是否在查找表中,找到为查找成功,找不到为查找失败.

    查找表:是由同一类型的数据元素或记录构成的集合.

    静态查找表:查询某个特定的数据元素是否在查找表中,检索某个特定的数据元素的各种属性.

    动态查找表:在查找过程中同时插入查找不存在的数据元素,或者从查找表中删除已存在的某个数据元素.

    平均查找长度(ASL):为确定数据元素在查找表中的位置,需和给定值进行比较的关键字个数的期望值,称为查找算法在查找成功时的平均查找长度.

    冲突:两个不同的关键字,其散列函数值相同,因而被映射到同一表位置的现象称为冲突.

    填空题:

    哈希函数的构造方法:直接定址法,数字分析法,平方取中法,折叠法,除留余数法随机数法.

    哈希函数处理冲突的方法:开放地址法,再哈希法,链地址法建立一个公共溢出区.

    简答题:

    各查找方法的基本思想,平均查找长度?

    顺序查找的基本思路:对于给定的关键字k,从线性表的第一个元素开始依次向后与记录的关键字域相比较,如果某个记录的关键字等于k,则查找成功,否则查找失败.平均查找长度ASL=3(n+1)/4.

    折半(二分)查找的基本思路:先取表的中间位置的记录关键字和所给关键字进行比较,若相等,则查找成功,如果给定关键字比该记录的关键字小,则说明所要查找的记录只可能在表的前半部分,反之,则在后半部分,重复步骤,每一次比较就可以将查找范围缩小一半,直到找到给定的关键字的记录,查找成功,找不到为查找失败.平均查找长度ASL=log2(n+1)-1.

    分块查找(索引顺序表查找)的基本思路:先确定待查记录所在的块(子表),然后在块中顺序查找.平均查找长度ASL=1/2[(n/s)+1]+s/2.

    哈希查找(散列查找)的基本思路:在进行查找时,在记录的存储位置与它的关键字之间建立一个确定的对应关系h,以线性表中每个元素的关键字k为自变量,通过函数h(k)计算出该元素的存储位置,我们将h函数称为散列函数或哈希函数,这种查找方法称为散列查找或哈希查找.

    排序

     

    名词解释:

    排序:就是按关键字值的递增或递减的次序,把文件中的各记录一次排列起来,可使一个无序文件变成有序文件的一种操作.

    排序算法的稳定性:相同元素排序前后的相对位置没有发生变化,则为稳定,反之为不稳定.

    内部排序:在排序过程中,所有待排序记录都放在内存中进行的排序称为内部排序.

    外部排序:当待排序的记录很多,排序时不仅要使用内存,而且还要使用外部存储器的排序方法称为外部排序.

    简答题:

    各排序方法的基本思想,时间复杂度,空间复杂度及稳定性?

     

    直接插入排序的基本思想:直接插入排序是一种最简单的排序方法,基本操作是将一条记录插入到已排好的有序表中,从而得到一个新的,记录数量增一的有序表.时间复杂度O(n^2).空间复杂度O(1).直接插入排序是稳定的.

    希尔排序的基本思想:先将整个待排元素序列分割成若干子序列分别进行直接插入排序,然后依次缩减增量再进行排序,使整个序列中的元素基本有序时,再对全体元素进行一次直接插入排序,实质就是分组直接插入排序.时间复杂度O(n^2).空间复杂度O(1).希尔排序是不稳定的.

    冒泡排序的基本思想:先将第一个记录的关键字和第二个记录的关键字进行比较,若为逆序,则将两个记录交换,然后比较第二个记录和第三个记录的关键字,以此类推,直至第n-1个记录和第n个记录的关键字进行过比较为止.时间复杂度O(n^2).空间复杂度O(1).冒泡排序是稳定的.

    快速排序的基本思想:通过一趟排序将要排序的数据分割成独立的两部分,其中一部分的所有数据都比另一部分的所有数据都要小,然后再按此方法对这两部分数据进行快速排序,整个排序过程可以递归进行,以达到整个序列有序.时间复杂度O(nlog2n).空间复杂度O(nlog2n).快速排序是不稳定的.

    直接选择排序的基本思想:对于给定的一组记录,经过第一轮比较后得到最小的记录,然后将该记录与第一个记录的位置交换,接着对不包括第一个记录以外的其他记录进行第二轮比较,得到最小的记录并与第二个记录的位置交换,重复该过程,直到进行比较的记录只有一个时为止.时间复杂度O(n^2).空间复杂度O(1).直接选择排序是不稳定的.

    堆排序的基本思想:堆排序是指利用堆积树(堆)这种数据结构所设计的一种排序算法,它是选择排序的一种,可以利用数组的特点快速定位索引的元素,堆分为大根堆和小根堆,是完全二叉树.时间复杂度O(nlog2n).空间复杂度O(1).堆排序是不稳定的.

    归并排序的基本思想:将待排序序列看成是n个长度为1的有序序列,将相邻的有序表成对归并,得到n/2个长度为2的有序表;将这些有序表再次归并,得到n/4个长度为4的有序序列;如此重复进行下去,最后得到一个长度为n的有序序列.时间复杂度O(nlog2n).空间复杂度O(n).归并排序是稳定的.

    基数排序的基本思想:是借助"分配"和"收集"两种操作对单逻辑关键字进行排序的一种内排序方法.时间复杂度O(d*n).空间复杂度O(n+r).基数排序是稳定的.

    作图题

     

    附加内容:

    文件:是由大量性质相同的记录组成的集合,可按其记录的类型不同而分成两类:操作系统文件和数据库文件.

    定长纪录文件:文件中每个记录含有的信息长度相同,则称这类记录为定长记录,由这类记录组成的文件称为定长纪录文件.

    不定长记录文件:文件中每个记录含有的信息长度不相同,则称这类记录为不定长记录,由这类记录组成的文件称为不定长纪录文件.

    文件的操作有两类:检索和修改.

    文件的检索有三种方式:顺序存取,直接存取,按关键字存取.

    文件的修改包括插入一个记录,删除一个记录和更新一个记录三种操作.

    顺序文件:物理记录的顺序与逻辑记录的顺序是一致的.

    连续文件:若次序相继的两个物理记录在存储介质上的存储位置是相邻的,则称连续文件.

    串联文件:物理记录之间的次序由指针相链表示,则称串联文件.

    索引文件:包含文件数据区和索引表两大部分的文件称作索引文件.

    索引项:索引表中的每一项称为索引项.

    索引顺序文件:数据区中记录也按关键字顺序排列,则称索引顺序文件,反之为索引非顺序文件.

    展开全文
  • 横截面数据时间序列数据、面板数据

    万次阅读 多人点赞 2018-03-20 15:12:40
    具有“横截面”和“时间序列”两个维度,当这类数据按两个维度进行排列时,数据都排一个平面上,与排一条线上的一维数据有着明显的不同,整个表格像是一个面板,所以称为面板数据(Panel Data)。 实际上如果从...

            面板数据(Panel Data)是将“截面数据”和“时间序列数据”综合起来的一种数据类型。具有“横截面”和“时间序列”两个维度,当这类数据按两个维度进行排列时,数据都排在一个平面上,与排在一条线上的一维数据有着明显的不同,整个表格像是一个面板,所以称为面板数据(Panel Data)。

            实际上如果从数据结构内在含义上,应该把Panel Data称为“时间序列-截面数据”,更能体现数据结构本质上的特点。该数据为也被称为“纵向数据(Longitudinal Data)”,“平行数据”,“TS-CS数据(Time Series-Cross Section)”。它是截面上个体在不同时间点的重复测量数据。面板数据从横截面(cross section)看,是由若干个体(entity,unit,individual)在某一时点构成的截面观测值,从纵剖面(longitudinal section)看每个个体都是一个时间序列。

         从时空维度来看,可将计量经济学中应用的数据分三类:

    1、横截面数据(Cross-sectional data)

      横截面数据是指在某一时点收集的不同对象的数据。它对应同一时点上不同空间(对象)所组成的一维数据集合,研究的是某一时点上的某种经济现象,突出空间(对象)的差异。横截面数据的突出特点就是离散性高。横截面数据体现的是个体的个性,突出个体的差异,通常横截面数据表现的是无规律的而非真正的随机变化。即计量经济学中所谓的“无法观测的异质性”。在分析横截面数据时,应主要注意两个问题:一是异方差问题,由于数据是在某一时期对个体或地域的样本的采集,不同个体或地域本身就存在差异;二是数据的一致性,主要包括变量的样本容量是否一致、样本的取样时期是否一致、数据的统计标准是否一致。

    图片来源于网络

    2、时间序列数据(Time-series data)

      时间序列数据是指对同一对象在不同时间连续观察所取得的数据。它着眼于研究对象在时间顺序上的变化,寻找空间(对象)历时发展的规律。利用时间序列作样本时,要注意几个问题:一是所选择的样本区间内经济行为的一致性问题;二是样本数据在不同样本点之间不可比,需要对原始数据进行调整,消除其不可比因素;三是样本观测值过于集中,因而时间序列数据不适宜于对模型中反映长期变化关系的结构参数的估计;四是模型随机误差的序列相关问题。

    图片来源于网络

    3、纵向数据(Longitudinal data)或面板数据(Panel data)

      面板数据,即Panel Data,是截面数据与时间序列综合起来的一种数据资源。 在分析时,多用PanelData模型,故也被称为面板数据模型. 它可以用于分析各样本在时间序列上组成的数据的特征,它能够综合利用样本信息,通过模型中的参数,既可以分析个体之间的差异情况,又可以描述个体的动态变化特征。

    图片来源于网络

     

    举栗一个,栗子来源于网络! 

    时间序列数据:北京一年来每天的平均温度。 

    截面数据:北京,上海,深圳,广州某一天的平均温度。 

    面板数据:北京,上海,深圳,广州这一年来每天的平均温度。  

    适用范围:

            时间序列数据:某一个个体随时间变化产生的数据。 

            截面数据:许多个个体在同一个时间下由于个体不同而产生的数据。 

            面板数据:前两个的综合——许多个个体由于个体不同以及时间变化产生的数据。  

    分析方法:

            时间序列数据:主要围绕时间变化,可看总体趋势,季节性,周期性,ARIMA(自回归,滑动平均,差分)等。 

            截面数据:主要围绕统计个体区别,可用线性回归,主元分析等。 面板数据:前两个的综合。

     

     

    举栗二个,栗子来源于网络! 

    如:城市名:北京、上海、重庆、天津的GDP分别为10、11、9、8(单位亿元)。这就是截面数据,在一个时间点处切开,看各个城市的不同就是截面数据。

    如:2000、2001、2002、2003、2004各年的北京市GDP分别为8、9、10、11、12(单位亿元)。这就是时间序列,选一个城市,看各个样本时间点的不同就是时间序列。

    如:2000、2001、2002、2003、2004各年中国所有直辖市的GDP分别为:

    北京市分别为8、9、10、11、12;

    上海市分别为9、10、11、12、13;

    天津市分别为5、6、7、8、9;

    重庆市分别为7、8、9、10、11(单位亿元)。

    这就是面板数据。

    展开全文
  • 数据搜集

    千次阅读 2018-10-19 18:35:01
    一、数据的来源 1、间接来源 定义:数据由别人通过调查或实验的方式搜集,使用者只是找到它们并加以使用 优点:二手资料搜集容易,采集数据成本低,...为了某个集团利益而搜集数据是值的怀疑的 数据是怎样搜集的...

    一、数据的来源

    1、间接来源

    定义:数据由别人通过调查或实验的方式搜集,使用者只是找到它们并加以使用

    优点:二手资料搜集容易,采集数据成本低,很快得到

    局限:二手资料不是为特定的研究问题而产生的,所以在回答所研究的问题方面有欠缺

    对二手资料评估:

    • 资料是谁搜集的?考察数据搜集者的实力和社会信誉度。政府或机构
    • 为什么目的而搜集?为了某个集团利益而搜集数据是值的怀疑的
    • 数据是怎样搜集的?搜集数据方法多样,不同方法搜集的数据其解释力和说服力不同。若不了解搜集数据所使用的方法,很难对数据的质量做出客观的评价。数据的质量来源于数据的产生过程。
    • 什么时候搜集的?过时的数据,其说服力自然受到质疑。
    • 使用二手数据,要注意数据的定义、含义、计算口径和计算方法,避免错用、误用、滥用。在引用二手数据时,应注明数据来源。

    2、直接来源

    定义:通过自己调查(调查数据)或实验(实验数据)活动,直接获得第一手数据

    调查是对社会现象而言。调查数据通常取自有限总体,即总体所包含的个体单位是有限的。如果调查针对总体中的所有个体单位进行,这种调查称为普查。普查数据具有信息全面、完整的特点,对普查数据的全面分析和深入挖掘是统计分析的重要内容。当总体很大时,普查涉及范围广,接受调查单位多,耗时、费力,调查成本高,普查不可正常进行。

    实验大多是对自然现象而言。

    二、调查数据

    数据采集阶段,关键问题是如何抽选出一个好的样本。好的样本是相对而言的,包括两方面:针对研究问题,不同的研究问题,对样本要求会有所差别,对某一个研究问题,这可能是一个不错样本,对另一个问题,这个样本可能就是糟糕的,所以进行什么样的抽样设计首先取决于研究目的;针对调查费用与估计精度的关系而言。

    抽样采集数据的方式:

    1、概率抽样(probability sampling )

    定义:也称随机抽样,是指遵循随机原则进行额抽样,总体中每个单位都有一定的机会被选入样本。

    (1)特点:

    • 抽样时是按一定的概率以随机原则抽取样本。随机原则:抽取样本时排除主观上有意识地抽取调查单位,使每个单位都有一定的机会被抽中。随机不等于随便,随机有严格的科学含义,可用概率描述,随便带有人为的主观因素。随机与随便的本质区别在于,是否按照给定的入样概率,通过一定的随机化程序抽取样本单元。
    • 每个单位被抽中的概率是已知的,或是可以计算出来的。
    • 当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率。估计量不仅与样本单位的观测值有关,也与其入样概率有关。
    • 概率抽样与等概率抽样:指总体中的每个单位都有一定的非零概率被抽中,单位之间被抽中的概率可以相等,也可以不等,前者等概率抽样,后者不等概率抽样。

    (2)概率抽样方式

    简单随机抽样(simple random sampling)
    • 定义:从总体N个单位的抽样框中随机地、一个个地抽取n个单位作为样本,实施随机化程序可以使用随机数字表,也可使用能产生符合要求的随机数序列的计算机程序。                                                                                                                                            进行概率抽样需要抽样框,抽样框包括所有总体单位信息。作用不仅在于提供备选单位的名单以供抽选,还是计算各单位入样概率的依据。
    • 简单随机抽样是一种最基本的抽样方法,使其它抽样方法的基础。简单直观,在抽样框完整时,可直接从中抽取样本,由于抽选的概率相同,用样本统计量对目标量进行估计及计算估计量误差都比较方便。
    • 局限:要求包含所有总体单位的名单作为抽样框,当N很大时,构造这样的抽样框并不容易;其次,根据这种方法抽出的单位很分散,给实施调查增加了困难;最后,这种方法没有利用其它辅助信息以提高估计的效率。在规模较大的调查中,很少直接采用简单随机抽样,一般把这种方法和其他抽样方法结合起来使用。
    分层抽样(stratified sampling)
    • 定义:是将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。将各层的样本结合起来,对总体目标量进行估计。
    • 优点:保证了样本中包含有各种特征的抽样单位,样本的结构与总体的结构比较相近,从而提高估计的精度;分层抽样在一定条件下为组织实施调查提供可方便(当层是按行业或行政区划分);分层抽样既可以对总体参数进行估计,也可以对各层的目标量进行估计。
    整群抽样(cluster sampling)
    •  定义:将总体中若干个单位合并为组,这样的组称为群。抽样时直接抽取群,然后对中选群中的所有单位全部实施调查。
    • 特点:抽取样本时只需要群的抽样框,不必要求包括所有单位的抽样框,简化了编制抽样框的工作量。由于群通常是由哪些地理位置邻近的或隶属于同一系统的单位所构成,因此调查的地点相对集中,从而节省调查费用,方便实施调查。
    • 弱点:估计的精度较差,因为同一群内的单位或多或少有些相似,在样本量相同的条件下,整群抽样的抽样误差较大。要得到与简单随机抽样相同的精度,采用整群抽样需要增加基本调查单位。
    系统抽样(systematic sampling)
    • 定义:将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位。
    • 典型系统抽样:先从数字1~k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k...。所以把系统抽样看成是将总体内的单位按顺序分成k群,用相同的概率抽取出一群的方法。
    • 优点:操作简便,如果有辅助信息,对总体内的单位进行有组织的排列,可有效提高估计的精度。
    • 缺点:对估计量方差的估计比较困难。
    多阶段抽样(multi-stage sampling)
    • 定义:采用类似整群抽样的方法,首先抽取群,但并不是调查群内所有单位,而是再进一步抽样,从选中的群中抽取出若干个单位进行调查。因为取得这些接受调查的单位需要两个步骤,所以称为二阶段抽样。群是初级抽样单位,第二阶段抽取的是最终抽样单位。这种方法推广,使抽样的段数增多,就称为多阶段抽样。抽取样本的阶段应尽量少。因为每增加一个抽样阶段。就会增加一份估计误差,用样本对总体进行估计就更复杂。
    • 优点:具有整群抽样的优点,保证了样本相对集中,节约调查费用;不需要包含所有低阶段抽样单位的抽样框;同时由于实行了再抽样,使调查单位在更广的范围内展开。在较大规模的抽样调查中,多阶段抽样经常用。

     (3)概率抽样优点

    可以依靠调查结果,计算估计量误差,从而得到对总体目标量进行推断的可靠程度。也可以按照要求的精确度,计算必要的样本单位数目。所有这些都为统计估计结果的评估提供了有力证据。所以,统计分析的样本主要是概率样本,即样本是采用概率抽样方式得到的。

    2、非概率抽样(non-probability sampling )

    定义:是相对于概率抽样而言,指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。

    类型:

    方便抽样

    • 调查过程中调查员依据方便的原则,自信确定入抽样本的单位。如调查员在街头、公园、商店等公共场所进行拦截式的调查;厂家在出售产品的柜台前对路过的顾客进行调查等。
    • 特点:容易实施,调查的成本低
    • 弱点:样本单位的确定带有随意性,因此,方便样本无法代表有明确意义的总体,将方便样本的调查结果推广到总体是没有意义的。如果研究的目的是对总体有关的参数进行推断,使用方便样本是不合适的。但在科研中,使用方便样本可产生一些想法以及对研究内容的初步认识,或建立假设。
    判断抽样
    • 定义:是另一种比较方便的抽样方式,是指研究人员根据经验、判断和对研究对象的了解,有目的地选择一些单位作为样本,实施时根据不同的目的有重点抽样、典型抽样、代表抽样等方式。
    • 重点抽样:从调查对象的全部单位中选择少数重点单位,对其实施调查。这些重点单位数量不多,但在总体中占重要地位。如了解全国钢铁企业生产状况,可选择产量较大的几个钢铁企业,对重点单位调查,可了解钢铁产量大致情况及产量变化基本走势。
    • 典型抽样:从总体中选择若干个典型的单位进行深入的调研,目的是通过典型单位来描述或揭示所研究问题的本质和规律。因此,选择的典型单位应该具有研究问题的本质或特征。青少年犯罪,选取典型犯人,分析青少年犯罪规律。
    • 代表抽样:通过分析,选择具有代表性的单位作为样本,在某种程度上,也具有典型抽样的含义。某奶粉生产企业欲了解消费者对奶粉成分的需求,可调查一些年轻母亲,通过他们了解消费者购买奶粉时的选择意向。
    • 判断抽样是主观的,样本选择的好坏取决于调研者的判断、经验、专业程度和创造性。成本较低,容易操作,但由于样本是人为确定的,没有依据随机的原则,因而调查结果不能用于对总体有关参数进行估计。
    自愿样本
    • 定义:指被调查者自愿参加,成为样本中的一份子,向调查人员提供有关信息。参与报刊上和互联网上刊登的调查问卷活动,向某类节目拨打热线电话等。
    • 自愿样本与抽样的随机性无关,样本的组成往往集中于某类特定的人群,尤其集中于对该调查活动感兴趣的人群,因此这种样本是有偏的。不能依据样本的信息对总体的状况进行估计,但自愿样本仍可给研究人员提供有价值的信息,可以反映某类群体的一般看法。
    滚雪球抽样
    • 定义:往往用于对稀少群体的调查。在滚雪球抽样中,首先选择一组调查单位,对其实施调查之后,再请他们提供另外一些属于研究总体的调查对象,调查人员根据所提供的线索,进行此后的调查。这个过程持续下去,就会形成滚雪球效应
    • 滚雪球抽样属于非概率抽样,因为与随机抽取的被调者相比,被推荐的被调查者在许多方面与推荐他们的那些人更为相似。
    • 优点:容易找到那些属于特定群体的被调查者,调查的成本较低。适合对特定群体进行研究的资料搜集。
    配额抽样
    • 定义:类似于概率抽样中的分层抽样,在市场调查中应用广泛。首先将总体中的所有单位按一定的标志(变量)分为若干类,然后在每个类中采用方便抽样或判断抽样的方式选取样本单位。
    • 操作简单,可以保证总体中不同类别的单位都能包括在所抽的样本中,使得样本的结构和总体结构类似。
    • 抽取具体单位时不是依据随机原则,所以属于非概率抽样
    • 配额抽样中,可以按单一变量控制,也可按交叉变量控制。单一变量控制操作简单,但可能出现偏斜。交叉变量配额控制可以保证样本的分布更均匀,但现场调查中为了保证配额的实现,尤其是在调查接近结束时,所选的样本单位要同时满足特定的配额、调查对象的特征、调查费用、时间等。

    3、概率抽样和非概率抽样的比较

    (1)性质不同,在调查中采用何种抽样类型,取决于多种因素,包括研究问题的性质、使用数据要说明的问题、调查对象的特征、调查费用、时间等。

    (2)非概率抽样不是依据随机原则抽选样本,样本统计量的分布是不确切的,因而无法使用样本的结果对总体相应参数进行推断。若调查的目标是用样本的调查结果对总体相应参数进行估计,并计算估计的误差,得到总体参数的置信区间,不适合采用非概率抽样。非概率抽样特点:操作简便、时效快、成本低。且对于抽样中的统计学专业技术要求不是很高。适合探索性研究,调查结果用于发现问题,为更深入的数量分析做准备。也适合市场调查中的概念测试,如产品包装测试、广告测试等。

    (3)概率抽样是依据随机原则抽取样本,这是样本统计量的理论分布是存在的,可根据调查结果对总体有关参数进行估计,计算估计误差,得到总体参数的置信区间,且进行抽样设计时,对估计的精度提出要求,计算满足特定精度要求所需要的样本量。如果调查的目的在于掌握研究对象总体的数量特征,得到总体参数的置信区间,应该使用概率抽样的方法。概率抽样的技术含量更高,无论是抽选样本还是对调查数据进行分析,都要求有较高的统计学专业知识,调查的成本比非概率抽样高。

    4、搜集数据的基本方法

    样本单位确定后,对这些单位实施调查,即从样本单位那里得到所需要的数据,可采用不同方法。

    自填式定义

    指在没有调查员协助的情况下由被调查者自己填写,完成调查问卷。

    问卷要求     & 对比
    • 把问卷送给被调查者方法如调查员分发,邮寄,网络或把问卷刊登在网上。由于被调查者在填答问卷时调查员一般不在现场,对于问卷中的疑问无人解答,所以这种方法要求调查问卷结构严谨,有清楚的说明,让被调查者一看就知道如何完成问卷。要求被调查者具一定文化素养,可读懂问卷,正确理解调查问卷中的问题并进行回答。
    • 与其他调查方式比,自填式问卷应有制作详细、形象友好的说明,必要时可在问卷上提供调查人员的联系电话,以便被调查者遇到疑问时与调查员联络。与其他搜集数据方式相比,调查组织者对自填式方式的管理相对容易,只要把问卷正确地送到被调查者手中即可。
    优点
    • 成本低,增大样本量对调查费用的影响很小,可进行大范围调查。利于被调查者,他们可以选择方便的时间填答问卷,可参考有关记录而不必依靠记忆进行回答。
    • 由于填写问卷时调查员不在场,因而自填式方法可以在一定程度上减少被调查者回答敏感问题的压力。
    缺点
    • 问卷的回收率比较低,被调查者不够重视,在完成问卷方面没有压力,所以放弃不答。由于不重视,被调查者易把问卷丢失和遗忘,所以需要做很多跟踪回访工作取得较高的回收率。
    • 不适合结构复杂的问卷,许多被调查者不会认真阅读填写问卷指南。对调查内容有所局限。
    • 调查周期比较长,调查人员需要对问卷的递送和回收方法进行仔细研究和选择
    • 对于数据搜集过程中出现的问题,一般难以及时采取调改措施
    面访式定义是指现场调查中调查员与被调查者面对面,调查员提问、被调查者回答这种调查方式。
    优点
    • 由于是面对面交流,调查员可以激发被调查者的参与意识,对不愿意参与的被访者进行说服工作,提高调查的回答率。
    • 调查员可在现场解释问卷,回答被调查者的问题,对被调查者的回答进行鉴别和澄清,提高调查数据的质量,且可以对识字率低的群体实施调查。
    • 由于调查问卷是由经过培训的调查员所控制,在问卷设计中可采用更多 的技术手段,使得调查问题的组合更为科学、合理。
    • 在面访调查中,可借助其他调查工具(图片、照片、卡片、实物等)以丰富调查内容。
    • 能对数据搜集所花费的时间进行调节,如果数据搜集进展太慢,需要加快速度,就可雇更多的调查员,但使用自填式方式时是不可能的。
    弱点
    • 调查的成本较高,要有调查员的培训费用、调查员的工资、面访调查中送给被调查者的小礼品和调查员的交通费用等,且调查费用与样本量关系十分密切。在大样本调查中,研究人员面临着调查成本的巨大压力。
    • 面访这种搜集数据的方式在对调查过程的质量控制方面有一定难度,调查的数据质量与调查员的工作态度、责任心有直接关系,当大量调查员参与调查时,如何保证高质量的现场操作是一个重要问题。
    • 对于敏感问题,除非对调查员进行角色筛选,对调查员的访谈技巧进行专门的技术培训,否则,在面对面的条件下,被调查者通常不会像在自填式方法下那样放松
    电话式定义是指调查人员通过打电话的方式向被调查者实施调查。
    特点
    • 速度快,能够在最短的时间内完成调查,适合样本单位十分分散的情况,由于不需要支付调查员的交通费,数据搜集的成本不大。
    • 对调查员也是安全的,他们不必在晚上走访偏僻的居民区,在面访调查中,这些不可避免的
    • 对访问过程的控制比较容易,因为调查员的工作地点都是在一起,调查中遇到的问题可得到及时处理和解决,调查监督对访问实施监听也容易。计算机辅助电话调查(CATI)
    局限性
    • 电话调查的工具是电话,如果被调查者没有电话,调查将无法实施,所以在电话拥有率不高的地方,电话调查收到限制
    • 使用电话进行访问的时间不能太长,人们不愿意通过电话进行冗长的交谈,被访者对调查的内容不感兴趣时更是如此。
    • 电话调查所使用的问卷要简单,如果问卷答案的选项过长、过多,被调查者听了后面,忘记前面,不仅造成调查进度的延缓,被调查者容易挂断电话。
    • 与面访相比,电话调查由于不是面对面的交流,在被访者不愿意接受调查时,要说服他们更为困难
    观察式定义调查人员通过直接观测方法获取信息,如利用安置在超市中的录像设备观察顾客挑选商品时的表情,在十字路口通过计数方法估计车流量
    数据搜集方法的选择:搜集数据的不同方法各有特点,选择方法时,需要考虑几点1、抽样框中的有关信息如果抽样框中没有同学地址,就不能将自填式问卷寄给被调查者;如果没有计算机随机数字拨号系统,有没有电话号码的抽样框,电话调查的概率样本就难以产生,电话访问方式无法使用
    2、目标总体的特征如果总体的识字率很低,对问卷的理解有困难,就不宜使用自填式方法。样本的地理分布也很重要,如果样本单位分布很广,地域跨度大,进行面访调查的交通费用就会很高,且调查过程的管理和质量监控实施起来不容易。
    3、调查问题的内容对于比较复杂的问题,面访调查比较适合,因为调查员可以在现场对模糊的问题进行解释和澄清,并判断被访者对问题是否真正理解,调查问卷的设计也可以采用更多技术,如跳答、转答等,使搜集的数据满足研究的要求。如果调查的问题涉及一些敏感问题,使用匿名的数据搜集方法,如自填式或电话调查可能更适合。
    4、有形辅助物的使用对调查是有帮助和必要的。在调查期间显示产品、产品样本、广告等,在一些市场调查中,有时需要被调查者试用产品,然后接受调查。在这些情况下,面访是最合适的方法。采用邮寄问卷的自填式调查方法也可以有一些效果,因为可以随问卷同时邮寄有关调查内容的图片,但电话调查对有形辅助物的使用就受到限制。
    5、实施调查的资源这些资源包括经费预算、人员、调查设备和调查所需时间。面访调查费用最高,需要支付调查员的劳务费、调查交通费、被访者的礼品费等,还要找到能够满足调查需要的一定数量的调查员。如果使用计算机辅助电话调查,就需要有计算机设备和CATI操作系统。
    6、管理与控制在电话调查中,调查员通常集中在调查中心一起工作,因此,管理和控制相对简单。面访调查中调查员是分散、独立地进行工作,对他们的管理与控制有一定难度。
    7、质量要求如果调查员是经过考核选拨进来的,有较好的素质和责任心,并经过专门的培训,这时面访调查就能够有效地减少被访者的回答误差。如,对于调查中所使用的概念,调查员能够给出清晰无误的解释;有经验的调查员还可对被访者回答的真实性做出判断,并使用调查询问中的相关技术进行澄清,以保证高质量数据。回答率也是影响数据质量一个因素,由于面访具有面对面交流的有利条件,所以面访式回答率最高,而自填式回答率低。但面访式调查成本最高,自填式调查成本最低。
    搜集数据不同方法的特点
    项目自填式面访式电话式
    调查时间中等
    调查费用
    问卷难度要求容易
    有形辅助物的使用中等利用充分利用无法利用
    调查过程控制简单复杂容易
    调查员作用的发挥无法发挥充分发挥一般发挥
    回答率最低较高一般
    在数据搜集使用方法的选择中要根据调查所需信息的性质、调查对象的特点、对数据质量和回答率的要求,以及预算费用和时间要求等多方面因素综合而定。如对被选中的调查单位首先采用邮寄问卷,让受访者自填的方式,对没有返回问卷的受访者,再进行电话追访或面访。

    三、实验数据(experiment data)

    定义:是指在实验中控制实验对象而搜集到的变量的数据,在实验中控制一个或多个变量,在有控制的条件下得到观测结果。实验是检验变量间因果关系的一种方法。在实验中,研究人员要控制某一情形的所有相关方面,操纵少数感兴趣的变量,然后观察实验结果。

    1、实验组和对照组

    • 实验法基本逻辑:有意识地改变某个变量的情况(A),然后看另一个变量变化情况(B)。如果B随着A的变化而变化,说明A对B有影响。需要将研究对象分为两组,一组实验组,一组对照组。
    • 实验组(experiment group):指随机抽选的实验对象的子集。在这个子集中,每个单位接受某种特别的处理。
    • 对照组(control group):每个单位不接受实验组成员所接受的某种特别处理。
    • 一个好的实验设计都有一个实验组和一个或多个对照组。
    • 一个好的实验,对照组和实验组的产生不仅应该是随机的,而且应该是匹配的。匹配,是指对实验单位的背景材料进行分析比较,将情况类似的每对单位分别随机地分配到实验组和对照组。
    • 双盲法在实验设计中应采用。

    2、实验中的若干问题

    人的意愿在划分实验组和对照组时,应该采用随机原则,但研究对象是人,就不好控制
    心理问题在实验研究中,人们对被研究非常敏感,使得他们更加注意自我,从而走向极端
    道德问题道德问题使得对人和动物做的实验复杂化了。当某种实验设计道德问题,人们会处于进退两难的尴尬境地。

    3、实验中的统计

    统计在实验中的作用:确定进行实验所需要的单位个数,以保证实验可以达到统计显著的结果;将统计的思想融入实验设计,使实验设计符合统计分析的标准;提供尽可能最有效地同时研究几个变量影响的方法。

     通过实验得到的数据称为实验数据,实验数据可以作为研究者判断假设的依据。

    4、数据的误差

    (1)定义:是指通过调查搜集到的数据与研究对象真实结果之间的差异。数据误差分为两类:抽样误差和非抽样误差。

    抽样误差(sampling error)
    • 定义:是由抽样的随机性引起的样本结果与总体真值之间的误差。
    • 在概率抽样中,依据随机原则抽取样本,可能抽中由这样一些单位组成的样本,也可能抽中由另外一些单位组成的样本。根据不同的样本,可以得到不同的观测结果。但总体真实结果只能有一个,尽管这个真实值我们不知道。不过可以推测,虽然不同的样本会带来不同的答案,但这些不同的答案应该总在真值附近。如果不断增大样本量,不同的答案也会向总体真值逼近。
    • 抽样误差并不是针对某个具体样本的检测结果与总体真实结果的差异而言的,抽样误差描述的是所有样本可能的结果与总体真值之间的平均差异。
    • 抽样误差的大小与多方面因素有关。样本量的大小,样本量越大,抽样误差越小。当样本量大到与总体单位相同时,抽样调查变成普查,误差减小到0,这时不存在样本选择的随机性问题。
    • 还与总体的变异性有关。总体的变异性越大,即各单位之间的差异越大,抽样误差越大,因为有可能抽中特别大或特别小的样本单位,使样本结果偏大或偏小;总体的变异度越小,各单位之间越相似,抽样误差越小。如果所有单位完全一样,调查一个就可以精确无误地推断总体,抽样误差就不存在。
    非抽样误差(non-sampling error)

    定义:是相对抽样误差而言的,是指抽样误差之外的,由其他原因引起的样本观察结果与总体真值之间的差异。抽样误差是一种随机性误差,只是存在于概率抽样中;非抽样误差则不同,无论是概率抽样、非概率抽样或是全面调查中,都有可能产生非抽样误差。

    非抽样误差类型
    抽样框误差在概率抽样中需要根据抽样框抽取样本。抽样框是有关总体全部单位的名录,在地域抽样中,抽样框可以是地图。一个好的抽样框应该是,抽样框中的单位和研究总体的单位有一一对应的关系。
    回答误差

    是指被调查者在接受调查时给出的回答与真实情况不符。导致回答误差的原因有多种,主要有理解误差、记忆误差和有意识误差。

    无回答误差
    • 是指被调查者拒绝接受调查,调查人员得到的是一份空白答卷。无回答也包括那些调查进行时被访者不在家的情况。电话调查中,拨通后没有人接;邮寄问卷调查中,地址写错,被调查者搬家,或者被调查者虽然受到问卷,却把问卷遗失或丢失,这些都可视为调查中的无回答。
    • 无回答误差有时是随机的,有时是系统性的。如果无回答的产生与调查的内容无关,如邮寄问卷的丢失,调查时被访者正在生病,无法接受调查,在随机状态下,被访者如果回答,其结果可能高于平均值,也可能低于平均值,高低互相抵消,不会产生有偏估计。但当无回答的产生与调查内容有关时,就可能产生系统性误差。如调查收入时的拒绝回答者通常是收入比较高的人群,仅仅用收入低的回答结果进行推算,偏差就不可避免。
    • 无回答误差是随机的,可通过增大样本量。多次回访。
    • 无回答系统性误差解决途径:预防,在调查前做好各方面的准备工作,尽量把无回答降到最低程度;当无回答出现后,分析无回答产生的原因,采用一些补救措施。如在无回答单位中再抽取一个样本,实施更有力的调查,并以此作为无回答层的代表。
    调查员误差指由于调查员的原因而产生的调查误差。
    测量误差如果调查与测量工具有关,很有可能产生测量误差。

    (2)误差的控制

    抽样误差是由抽样的随机性带来的,只要采用概率抽样,抽样误差就不可避免。抽样误差是可以计算的。在一个特定问题的研究中,研究人员对抽样误差有一个可以容忍的限度。允许的抽样误差是多大,取决于对数据精度的要求。一旦误差确定下来,就可采用相应措施进行控制。进行控制的主要方法是改变样本量。要求的抽样误差越小,所需要的样本量就越大。

    非抽样误差与抽取样本的随机性无关,因而在概率抽样和非概率抽样中都会存在(但抽样框误差仅在概率抽样中存在)。很多原因会造成非抽样误差。做好问卷设计是减少非抽样误差的一个方法。非抽样误差的控制主要是在调查过程的质量控制。包括:调查员的挑选,调查员的培训,督导员的调查专业水平,对调查过程进行控制的具体措施,对调查结果进行的检验、评估,对现场调查人员进行奖惩的制度。目前在规范的专业性市场调查咨询公司,都有一些进行质量控制的规章制度和经验。

    展开全文
  • 横截面数据同一时间不同统计单位相同统计指标组成的数据列。横截面数据不要求统计对象及其范围相同,但要求统计的时间相同。也就是说必须是同一时间截面上的数据。例如,为了研究某一行业各个企业的产出与投入...
  • 统计数据收集方式与收集方法

    千次阅读 2020-03-05 23:39:46
    二手数据收集方式 1.公开出版物 (《 中国统计年鉴》、《中国统计摘要》、《中国 人口统计年鉴》、《世界经济年鉴》、《国外经 济统计资料》、《世界发展报告》……) 2.网络 一手数据收集方式 统计调查:普查、抽样...
  • 数据收集

    千次阅读 2020-03-25 11:01:32
    A、采集数据的成本低,但搜集比较困难 B、采集数据的成本低,搜集比较容易 C、数据缺乏可靠性 D、不适合自己研究的需要 正确答案: B 2 从含有N个元素的总体中,抽取n个元素作为样本,使得总体中的每一个元素都有相同的...
  • UCI人类活动识别数据集是人类活动识别领域的benchmark数据集(还有一个常用的特征维数和活动种类更多的OPPORTUNITY数据集,会之后的文章中介绍),本文详细介绍了UCI-HAR数据集,并通过该数据集来探索加载数据集...
  • 数据仓库知识汇总

    千次阅读 多人点赞 2019-10-09 15:04:01
    数据仓库形象解释 业务场景如下图 举例说明: 很久很久以前,世界上生活着许多种族,有人类,有矮人,有精灵......他们有着不同的信仰,不同的文化,彼此相安无事。可是,有一个猥琐男却偏偏想要统治整个世界...
  • 序列数据(具有时间依赖性的数据业务中非常常见,从信用卡交易到医疗保健记录再到股票市场价格。 但是,隐私法规限制并极大地减慢了对研发至关重要的有用数据的访问。 这就产生了对具有高度代表性但又完全私有的...
  • 什么是时间序列数据

    万次阅读 2018-10-24 16:47:00
    用描述性的语言来解释什么是时序数据,简单的说,就是这类数据描述了某个被测量的主体一个时间范围内的每个时间点上的测量值。   对时序数据进行建模的话,会包含三个重要部分,分别是:主体,时间点和测量值。....
  • 顾名思义,特征工程是一种工程活动,目的是从原始数据中最大限度的提取出能表征原始数据信息的特征。数据和特征决定了机器学习的上限,算法和模型不过是逼近这个上限。不过深度学习不用像传统机器学习那样人为合成...
  • 时间序列数据的存储和计算 - 概述

    千次阅读 2018-03-05 11:34:47
    转载:...用描述性的语言来解释什么是时序数据,简单的说,就是这类数据描述了某个被测量的主体一个时间范围内的每个时间点上的测量值。什么是时间序列数据  什么是时间序列(Time Series,以...
  • 连续型时间数据:事实上连续型时间数据和离散型时间数据没有本质区别,因为时间是可以不断细分的,所以连续时间更多地是一种某种时间单位计算上不间断地数据,但是它还是离散且有限的。 分析时序数据的基本目的 主...
  • 数据仓库架构设计的一点概念

    万次阅读 2018-05-28 09:31:33
    1、数据仓库所处环节 一个成体系、结构化的数据应用场景下,数据和处理有四个层次: 操作层、数据仓库层、部门/数据集市...(2) 数据仓库收集操作层各个业务系统中的数据,进行统一格式、统一计量单位,规整有序地...
  • Java面试题大全(2020版)

    万次阅读 多人点赞 2019-11-26 11:59:06
    发现网上很多Java面试题都没有答案,所以花了很长时间搜集整理出来了这套Java面试题大全,希望对大家有帮助哈~ 本套Java面试题大全,全的不能再全,哈哈~ 一、Java 基础 1. JDK 和 JRE 有什么区别? JDK:Java ...
  • 空间数据分析知识

    千次阅读 2017-12-04 20:47:43
    1. 空间分析:(spatial analysis,SA)是基于地理对性的位置和形态特征的空间数据分析技术,其目的在于提取和传输空间信息,是地理信息系统的主要特征,同时也是评价一个地理信息系统功能的主要指标之一,是各类综合性...
  • 商品数据运营指标 销售类指标 订单量/商品销售量 订单量指用户提交订单的数量,计算逻辑去重后的订单ID的数量。 商品销售量又称销售件数,指销售商品的数量。 订单金额/商品销售金额 订单金额为用户提交订单...
  • 最近这几年,大数据异常火热,各行各业都讨论、学习、研究大数据;同时,几乎每个行业都与大数据衔接,出现了很多的大数据应用。现在的很多研究和工作都离不开大数据及其相关知识。 所以,学习、研究大数据是...
  • 空间点数据分析与ArcGIS

    万次阅读 多人点赞 2015-05-30 12:01:15
    自然界中任何一个带有位置信息的个体都能被抽象为一个空间点数据,“”的模式自然与社会经济中都是普遍存在的,对点数据的分析,主要分为两大类: 1、点数据本身模式的识别和探索。 2、通过模式的显示的信息,...
  • 数据结构知识整理

    万次阅读 多人点赞 2018-07-30 18:50:47
    基于严蔚敏及吴伟民编著的清华大学C语言版教材并结合网上相关资料整理(http://www.docin.com/p-2027739005.html) ...数据:对客观事物的符号表示,计算机科学中是指所有能输入到计算机中并被计算...
  • 数据仓库综述  一、数据的仓库的产生和发展  数据仓库的出现和发展是计算机应用到一定阶段的必然产物。经过多年的计算机应用和市场积累,许多商业企业已保存了大量原始数据和各种业务数据,这些数据真实地反映了...
  • 从招聘信息看-数据分析师(数据分析报告)

    千次阅读 多人点赞 2019-04-22 14:07:14
    从招聘信息看-数据分析师 ... 本次项目主要利用爬虫爬去拉钩网上根据数据分析这一关键词所查询的岗位全国范围能的岗位搜索结果,进行一些数据分析来了解“数据分析”。 数据来源和数据集 ...
  • 第2章 数据搜集

    千次阅读 2020-12-08 22:35:59
    但是,从使用者的角度看,统计数据主要有两个渠道:一个是数据的间接来源,即数据是由别人通过调查或实验的方式搜集的,使用者只是找到它们并加以使用,对此我们称为数据的间接来源。另一个是通过自己的调查或实验...
  • ETL详细讲解

    千次阅读 2019-08-27 23:04:35
    ETL详细讲解 ETL是将业务系统的数据... 通常情况下,BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。  ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。设计ET...
  • 年终将至,不少人都赶自己的年终报告吧? 身边有这样一位财务的朋友向我吐槽: 年终总结无内容可写,过去一年一直做报表,130多张,财务技能没有提升,Excel倒是进步不少,一度陷入迷茫和恐思。 既然做了...
  • 总结很多人的面试题,后期会对于单个知识再说笔记详细讲解。 部分都是百度的答案,不是特全面的,可以自己找下 同时分享一个自己录制的CSS3动画特效经典案例【推荐教程】--后期会更新vue框架 微信小程序等内容。...
  • 数据治理——主数据项目实施

    千次阅读 2020-04-10 09:18:38
    数据的层次模型(根据数据的特征、作用以及管理需求的不同)2.主数据涵盖了元数据、引用数据、企业结构数据、业务结构数据二.传统的软件项目实施三.主数据项目四.主数据项目详细规划第一阶段(体系规划阶段)第二阶段...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 114,279
精华内容 45,711
关键字:

在不同时间不同单位点收集的数据