-
2016-10-06 13:52:41
《EXCEL 2010从入门到精通》
一、数据类型
1、文本
输入数值型的文本数据,在前面先加一个单引号’
例如:’12345678902、数字(数值)
输入分数:0 1/3(先输入0 + 空格,再输入分数)
3、日期、时间
/ 或 - 连接日期数字
: 连接时分秒
例如:2016-10-5 17:36:454、符号
插入——符号
5、公式、函数
二、自动填充
自动填充相同数据或序列数据。
1、拖动法
2、开始-编辑-填充可以自定义填充序列(选项-高级-编辑自定义序列)
三、设置数据有效性输入规则
数据——数据有效性
1、文本长度限制
2、数字输入限制
3、下拉列表限制输入数据——数据有效性——设置——有效性条件(允许——序列)
序列可以用来源,也可以直接输入(格式为 A,B,C)4、设置提示信息、警告信息
数据——数据有效性——输入信息/出错警告
四、编辑数据
1、清除数据格式/内容
开始——编辑——清除
2、在多个工作表插入多个相同数据
选定工作表组(多个工作表)——选中区域——输入数据——CTRL + SHIFT +ENTER
3、圈释无效数据
数据——数据有效性——圈释无效数据
4、行列互换
粘贴时使用转置
五、工作表美化
1、字体:设置字体、字号、字形、字体颜色、边框、底纹、斜线表头
2、对齐方式:(包括旋转角度、自动换行)
3、数字:数字、日期、货币格式、百分比
4、样式:表格样式、单元格样式、自定义样式
5、批注:审阅——批注
6、主题:页面布局——主题
7、页面设置:背景
8、文本:插入——文本(文本框、页眉和页脚、艺术字、签名行、对象)
9、插图:插入——插图(图片、剪贴画、形状、SmartArt、屏幕截图)
10、绘图工具——格式更多相关内容 -
快速识别无效数据(数据有效性/数据验证)
2021-01-28 01:42:38数据验证(在早期Excel版本中称为数据有效性)是Excel中的常用功能,使用此功能可以确保数据的规范化,如下图A列(列表:张三,李四)和C列(列表:早班,晚班)设置了数据验证。 依次单击【数据验证】>【圈释无效...数据验证(在早期Excel版本中称为数据有效性)是Excel中的常用功能,使用此功能可以确保数据的规范化,如下图A列(序列:张三,李四)和C列(序列:早班,晚班)设置了数据验证。
依次单击【数据验证】>【圈释无效数据】,无效数据将被标注出来,如下图所示。
值得注意的是:圈释无效数据添加的椭圆并不是普通的图形(Shape对象),因此无法使用VBA直接读取无效数据所在单元格区域。
山穷水尽疑无路,柳暗花明又一村,此路不通,肯定还有其他的方法。VBA中还有其他方法来识别无效数据。Sub Demo() Dim res As Range, c As Range, rngVal As Range Set rngVal = [a1].CurrentRegion.SpecialCells(xlCellTypeAllValidation) If Not rngVal Is Nothing Then For Each c In rngVal If Not c.Validation.Value Then If res Is Nothing Then Set res = c Else Set res = Union(res, c) End If End If Next If Not res Is Nothing Then MsgBox "无效数据:" & res.Address(0, 0) Else MsgBox "没有设置数据验证" End If End Sub
【代码解析】
第3行代码使用SpecialCells(xlCellTypeAllValidation)
获取设置数据验证的单元格区域。
第4行代码判断工作表是否已经设置数据验证,如果没有,则第16行代码给出提示,退出程序运行。
第5~13代码循环处理每个单元格。
第6行代码使用Range
对象的Validation
属性进行判断,无效数据单元格返回值为False。
第7~11代码将无效数据单元格赋值给对象变量res
。
第14行代码输出结果如下。
-
Excel的检验数据的标准(数据验证-数据的有效性)
2019-08-16 11:44:48工作中往往会涉及到很多数据的处理,有些时候需要验证数据是否符合某个标准,比如学生的成绩,Excel中很好的给我们提供了检验数据的标准。 Excel的数据验证可以是 ...数据验证之圈释无效数据 自...工作中往往会涉及到很多数据的处理,有些时候需要验证数据是否符合某个标准,比如学生的成绩,Excel中很好的给我们提供了检验数据的标准。
Excel的数据验证可以是
- 数据类型:整数,小数
- 日期
- 文本长度
- 序列:手工录入法,单元格引用法,定义名称法 ,公式法,呈现的结果如下:
- 自定义:会涉及到公式,这个会后续文章讲解
Excel数据无效性的验证:
- 数据验证之圈释无效数据
- 自动识别无效数据:使用到Excel中的代码,步骤:右键工作表查看代码(写入代码),如果代码不会写,可以使用开发者工具的宏,点击开发者工具,录宏-》数据(圈无效数据)-》停止宏,就可以在代码中查找写的代码,很方便快捷
-
探索性数据分析
2019-01-05 21:15:22探索性数据分析(Exploratory Data Analysis,EDA)是指对已有数据在尽量少的先验假设下通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法,该方法在上世纪70年代由美国统计学家J....探索性数据分析(Exploratory Data Analysis,EDA)是指对已有数据在尽量少的先验假设下通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法,该方法在上世纪70年代由美国统计学家J.K.Tukey提出。传统的统计分析方法常常先假设数据符合一种统计模型,然后依据数据样本来估计模型的一些参数及统计量,以此了解数据的特征,但实际中往往有很多数据并不符合假设的统计模型分布,这导致数据分析结果不理想。EDA则是一种更加贴合实际情况的分析方法,它强调让数据自身“说话”,通过EDA我们可以最真实、直接的观察到数据的结构及特征。
EDA出现之后,数据分析的过程就分为两步了,探索阶段和验证阶段。探索阶段侧重于发现数据中包含的模式或模型,验证阶段侧重于评估所发现的模式或模型,很多机器学习算法(分为训练和测试两步)都是遵循这种思想。当我们拿到一份数据时,如果做数据分析的目的不是非常明确、有针对性时,可能会感到有些茫然(我在哪儿,我要干什么。。。我最初就是这样的),那此刻就更加有必要进行EDA了,它能帮助我们先初步的了解数据的结构及特征,甚至发现一些模式或模型,再结合行业背景知识,也许就能直接得到一些有用的结论。
EDA的技术手段主要包括:汇总统计、可视化,下面分别做介绍。
1.汇总统计
汇总统计是量化的(如均值和方差等),用单个数和数的小集合来捕获数据集的特征,从统计学的观点看,这里所提的汇总统计过程就是对统计量的估计过程。
1.1 单个属性情况
- 频率和众数
频率可以简单定义为属于一个类别对象的样本数占总样本的比例,这里类别对象可以是分类模型的中不同的类,也可以是一个区间或一个集合。众数指具有最高频率的类别对象。
频率可以帮助查看数据在不同类别对象上的分布情况,众数可以让我们获知数据主要集中在那个类别对象上,不过要注意是可能有多个类别对象上的频率与众数对象上的频率相差不大,此时就要权衡众数的重要性是否有那么大。
- 百分位数
在有序数据上,百分位数是一个重要的统计量。给定一组数据,
百分位数
是这样的数:这组数据中有
%的数据小于
。百分位数能让我们了解数据大小分布情况。
- 位置度量:均值和中位数
对于连续数据,均值和中位数是比较常用的统计量,其中中位数即1/2分位数。均值对数据中的离群点比较敏感,一些离群点的存在能显著的影响均值的大小,而中位数能较好的处理离群点的影响,二者视具体情况使用。
为了克服离群点对均值的影响,有时使用截断均值。截断均值有一个参数
,计算
截断均值时去除高端(
/2)%和低端(
/2)%的数据,剩下数据的均值即为
截断均值。
均值、中位数和百分位数一样,都是用来观察数据值大小分布情况的。
- 散步分量:极差和方差
极差和方差是常用的统计量,用来观察数据分布的宽度和分散情况。极差是最大值与最小值的差值,它标识着数据的最大散步,但若大部分数值集中在较窄的范围内,极差反而会引起误解,此时需要结合方差来认识数据。
极差和方差对离群点非常敏感,因此有时也使用这三种统计量:绝对平均偏差(absolute average deviation,AAD)、中位数绝对偏差(median absolute deviation,MAD)、四分位数极差(interquartile range,IQR),三者定义分别为:
1.2 多个属性情况
多个属性数据间常用的统计量有协方差、相关系数。设属性
、属性
均有
个数据,
和
分别属性
、属性
的第
个数值,
、
分别为属性
、属性
的均值,则属性
和属性
的协方差定义为
协方差越接近于0越表明两个属性值间不具有(线性)关系,但协方差越大并不表明越相关,因为协方差的定义中没有考虑属性值本身大小的影响。
相关系数考虑了属性值本身大小的影响,因此是一个更合适的统计量。
、
是属性
、属性
的方差,则相关系数定义为:
相关系数的取值在[-1,1]上,-1表示负相关,即变换相反,1表示正相关,0则表示不相关。相关系数是序数型的,只能比较相关程度大小(绝对值比较),并不能做四则运算。
将属性间的相关系数按矩阵方式排列得到了相关系数矩阵,矩阵中对角线上的为属性的自相关系数(均为1)。
2.可视化
可视化技术能够让人快速吸收大量可视化信息并发现其中的模式,是十分直接且有效的数据探索性分析方法,但可视化技术具有专门性和特殊性,采用怎样的图表来描述数据及其包含的信息与具体的业务紧密相关。
运用可视化技术时,需要考虑三个问题:(1)如何将数据映射到图形元素 (2)如何组织数据进行映射 (3)如何解决数据维度问题
(1)如何将数据映射到图形元素
一般的可视化中,需要映射的是数据对象、数据对象的属性、数据对象间的联系这几种信息。
数据对象通常用几何图形表示,如圆圈、星号、叉号等。
属性的表示方法取决于属性的类型。对于取值连续的属性,可以用位置、亮度、颜色、尺寸等可以连续变化的图形元素表示;对于序数型属性,也可以用位置、亮度、颜色、尺寸等表示,不过变化不再是连续的,因此为了对不同属性取值加以区分,可以将图形元素间的区别放大一些;对于标称型属性,要注意避免表示出“序”的信息,此时可以将属性的每个取值用不同类型的图形元素表示,
数据对象间的关系有显式、隐式两种。显式的关系是已知、不需要去发掘的,我们只需要在图形中表示出来,常用的显式关系表示方法是用线条连接数据对象,或者将具有联系的数据对象赋予某一相同的图形特征;隐式的关系则需要我们采用合理的图表、合理的数据组织形式进行映射来帮助发现数据对象间的关系,例如在分类中将相同类型的数据对象放在一起显示就容易帮助发现数据对象间的联系,他们具有相似的属性取值。
(2)如何组织数据进行映射
在一些需要映射数据对象的可视化技术中,以特定的形式组织数据更能帮助发现数据对象间的联系。数据组织形式可简单理解为在图表的每个维度(即每个属性)上,坐标值(属性值)分布的形式。一般情况下,对于连续型、序数型属性,通常按属性取值大小排列组织数据显示,这使得图表呈现的信息易于理解;对于标称型属性,数据的组织形式并没有约定成俗的方式,此时不同的数据组织形式呈现的信息差异可能就比较明显了。
(3)如何解决数据维度问题
当前只能在三维空间中显示图标,再加上颜色、亮度等一个属性,一个图表上一般最多能显示四个属性信息了,对于多属性数据来说,如何解决维度问题就是一个值得考虑的问题。
一种做法是只显示属性子集(通常是两个属性),当属性数量不算太多时可以绘制双属性的矩阵图。当属性数量较多、以致于影响图形观察时则需要另想办法了。
另外一种做法是采用主成分分析(如PCA)等降维方法了。
可视化技术发展很快,现今包括动画、可交互式图标都是不错的可视化方法。
3.小结
数据探索性分析可能还有一些更基本的作用,例如我们在进行数据预处理前,需要知道哪些地方需要处理,这个过程也是数据探索的一个过程。
-
什么是数据中台,让企业的数据作为生产资料转变为数据生产力
2022-02-23 15:26:28数据中台是一套可持续“让企业的数据用起来”的机制,是一种战略选择和组织形式,是依据企业特有的业务模式 和组织架构,通过有形的产品和实施方法论支撑,构建的一套持续不断把数据变成资产并服务于业务的机制。 -
到底什么是数据湖?全面解读数据湖的缘起、特征、技术、案例和趋势
2021-03-29 14:56:48正文开始本文有1.5万字,预计阅读30分钟,可以先收藏数据湖近几年迅速蹿红,今天笔者做一个综述,包括数据湖的缘起、数据湖的定义、数据湖的特征、数据湖的技术、数据湖的趋势和数据湖的案例六大部... -
农业大数据中心建设可行性方案
2020-09-01 15:06:19深度并行技术:建立专用的深度并行处理计算系统,可有效缓解单机处理面临的速度难以满足海量数据处理时效要求的矛盾,大幅提高情报处理速度和应急保障的时效性。大数据并行处理作业管理,主要完成处理任务的调度、... -
比Excel高效,比python简单,这是我见过最好用的数据分析工具!
2020-04-23 10:27:22找我聊工作方面的问题,她本科学的金融,毕业却去了一家地产公司做HR,干的不好最近想跳槽,想转行干运营或者重拾起老本行干财务,看了一圈网上的招聘信息,发现都要求有数据分析能力,于是来向我请教如何学数据分析... -
基于hadoop生态圈的数据仓库实践 —— OLAP与数据可视化(四)
2016-08-29 14:44:28数据可视化简介 数据可视化在维基百科上是这样定义的:指一种表示数据或信息的技术,它将数据或信息编码为包含在图形里的可见对象(如点、线、条等),目的是将信息更加清晰有效地传达给用户,是数据分析或数据... -
34.6.1 Excel数据有效性的高级应用【动态二级级联菜单/如百度输入框Ajax效果的下拉菜单/圈出无效数据】
2012-06-02 17:32:42混合引用,数据有效性之圈释无效数据,SUMIF函数 2,限制输入重复数据 有效性函数:=SUMPRODUCT(N($B$4:$B$12=B4))=1 注意,这里还是对B4运用了相对引用,也就是说它会往下变成... -
超硬核!数据结构学霸笔记,考试面试吹牛就靠它
2021-03-26 11:11:21上次发操作系统笔记,很快浏览上万,这次数据结构比上次硬核的多哦,同样的会发超硬核代码,关注吧。 -
万字详解数据仓库、数据湖、数据中台和湖仓一体
2022-02-22 09:18:01数字化转型浪潮卷起各种新老概念满天飞,数据湖、数据仓库、数据中台轮番在朋友圈刷屏,有人说“数据中台算个啥,数据湖才是趋势”,有人说“再见了数据湖、数据仓库,数据中台已成气候”…… 企业还没推开数字化... -
基于Hadoop生态圈的数据仓库实践 —— ETL(二)
2016-07-06 11:46:10二、使用Hive转换、装载数据1. Hive简介(1)Hive是什么 Hive是一个数据仓库软件,使用SQL读、写、管理分布式存储上的大数据集。它建立在Hadoop之上,具有以下功能和特点:通过SQL方便地访问数据,适合执行ETL、... -
大数据开发基础入门与项目实战(三)Hadoop核心及生态圈技术栈之3.数据仓库工具Hive基础
2021-11-07 11:10:01本文主要介绍了数据仓库工具Hive基础,Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,是将SQL查询语句转化为MR任务进行计算:Hive概述,包括数仓工具Hive的产生背景、数仓工具Hive与... -
数据仓库基本知识
2017-10-31 17:35:04数据仓库是什么 根据统计,每个企业的数据量每2~3年时间就会成倍增长,这些数据蕴含着巨大的商业价值,而企业所关注的通常只占在总数据量的2%~4%左右。 因此,企业仍然没有最大化地利用已存在的数据资源,以... -
使用Python对数据进行描述性统计(机器学习)
2022-02-23 16:39:221. 一些常见的指标,例如维度,前多少行数据等 2. 皮尔逊相关系数和偏度分别观察多变量和单变量 3. 直方图,密度图,箱线图的代码演示和讲解 4. 多变量的可视化 -
❤️ 爆肝三万字《数据仓库体系》轻松拿下字节offer ❤️【建议收藏】
2021-09-11 16:18:20并在1991年在DECTA2的基础上把信息仓库的概念包含进去,并称之为VITAL规范,将PC、图形化界面、面向对象的组件以及局域网都包含在VITAL里,并定义了85种信息仓库的组件,包括数据抽取、转换、有效性验证、加载、Cube... -
首提数据圈概念 希捷携手IDC共同释放数据价值
2019-02-21 23:12:36最近,频上热搜的《流浪地球》,...其中,在地球即将毁灭之时,人类文明的数据将被存储至万年甚至百万年的片段,让我们对如此庞大的数据存储,陷入了深深的思考。 回到现实社会,数据让各行各业变得蒸蒸日上,在这1... -
冷数据、温数据、热数据,难道数据也是有温度的?
2019-01-23 22:46:45今天下午开会讨论一个业务方的需求,我去旁听,领导提了一句“热数据”,当时心里一脸蒙蔽,数据还能有温度? 一脸懵逼的网络图.jpeg 临下班的时候,整理今天的会议笔记,看到了打着问号的热数据,于是决定查一... -
基于Hadoop生态圈的数据仓库实践 —— ETL(一)
2016-07-01 22:54:09一、使用Sqoop抽取数据 1. Sqoop简介 Sqoop是一个在Hadoop与结构化数据存储(如关系数据库)之间高效传输大批量数据的工具。它在2012年3月被成功孵化,现在已是Apache的顶级项目。Sqoop有Sqoop1和Sqoop2两代,... -
《算法和数据结构》题海战术篇
2021-07-15 06:13:43文章目录 1️⃣前言:追忆我的刷题经历 2️⃣算法和数据结构的重要性 1、适用人群 2、有何作用 3、算法简介 4、数据结构 3️⃣如何开始持续的刷题 1、立军令状 ❤️2、培养兴趣 3、狂切水题 4、养成习惯 5、一周... -
开放科学背景下的科学数据开放共享:国家青藏高原科学数据中心的实践
2022-03-29 10:01:14开放科学背景下的科学数据开放共享:国家青藏高原科学数据中心的实践潘小多1,2,李新1,2,冉有华3,郭学军21中国科学院青藏高原研究所国家青藏高原科学数据中心,北京 1001012中国科学院青藏高原研究所青藏高原地球系统... -
数据采集与数据挖掘是什么?有什么区别?
2019-09-24 11:47:58Web抓取,Web采集,Web挖掘,数据分析,数据挖掘等。有些词在某些时候可以互换,这使得理解起来更加困难。在竞争激烈的营销行业,深刻全面理解这些术语将有益于业务提升。 什么是数据采集? 数据采集意味着从... -
数据库, 数据仓库, 数据集市,数据湖,数据中台
2019-02-22 16:21:47数据仓库和数据集市的区别 作者:修鹏李 出处:CSDN 大数据:数据仓库和数据库的区别 作者:南宫蓉 出处:简书 第一篇:数据仓库概述 第二篇:数据库关系建模 作者:穆晨 出处:CNBLOS 摘要 本文简要介绍... -
耗时n年,38页《数据仓库知识体系.pdf》(数据岗位必备)
2021-09-15 12:07:18拥有本篇文章,意味着你拥有一本完善的书籍,本篇文章整理了数据仓库领域,几乎所有的知识点。 -
一文搞懂什么是Hadoop?Hadoop的优点有哪些?Hadoop⽣态圈【详细介绍】
2021-08-26 23:34:46目前为止,我们知道了海量数据的存储是使用数据仓库,而为了保证数据的质量呢,我们要有元数据管理,还有数据治理。而为了保证这些数据的性能、还有使用的效率等等,那么我们采取的是分层架构。 在目前市面上用的... -
《2020年度中国数据竞赛年鉴》发布!
2021-04-09 00:17:54Datawhale发布2020 中国数据竞赛年鉴报告随着信息时代的发展,数据智能正逐渐渗透到生产、生活等方方面面,如何培养数据人才,促进产学研用协同发展,数据竞赛给出了一条清晰的路径。... -
中台实践:数据中台建设五步法
2022-01-27 14:17:45数据中台这个东西,现在业界并没有一个完整的标准定义,数据中台至少首先是一个分布式的数据仓库,同时包含相对应实施的方法论和方案,介于分布式数据仓库和企业全面数据化中间的任意一个点都可以被定义为数据中台。... -
大数据处理的基本流程:数据抽取与集成+数据分析+数据解释
2019-12-16 12:16:402007 年 1 月,图灵奖得主、关系型数据库鼻祖 JimGray 发表演讲,他凭着自己对于人类科学发展特征的深刻洞察,敏锐地指出科学的发展正在进入“数据密集型科学发现范式”——科学史上的“第四范式... -
数据挖掘:数据清洗——异常值处理
2020-02-16 19:46:45数据挖掘:数据清洗——异常值处理 一、离群点是什么? 离群点,是一个数据对象,它显著不同于其他数据对象,与其他数据分布有较为显著的不同。有时也称非离群点为“正常数据”,离群点为“异常数据”。 离群点跟...