精华内容
下载资源
问答
  • 一、分析前奏拿到一份数据后先要复制...Excel有不同数据类型,主要包括三种:字符串型(文本型)、数值型、逻辑型(T/F),其中字符串型不能直接用于做计算,所以尤其要注意以字符串形式存储的数字,先要更改为数值...

    一、分析前奏

    拿到一份数据后先要复制一份一样的数据,命名为清洗数据,即在保留原数据同时,在清洗数据中做分析。更改表格列宽或设置自动换行。

    安装Excel数据分析工具:文件→选项→加载项→管理:Excel加载项,转到→分析工具库→确定。

    Excel有不同数据类型,主要包括三种:字符串型(文本型)、数值型、逻辑型(T/F)

    其中字符串型不能直接用于做计算,所以尤其要注意以字符串形式存储的数字,先要更改为数值型。

    如何识别数据类型?

    选中单元格→右击→设置单元格格式查看数据类型,如果是常规,则无法判断,常规包括任意类型,一般默认情况下字符串类型是左对齐,数字类型是右对齐。

    二、数据分析的步骤

    d32fb0a4c55efdca8dbece5857981e0f.png
    数据分析步骤

    Step1.提出问题

    Step2.理解数据

    根据业务知识理解数据表中各字段信息含义(列名)

    Step3.数据清洗

    2b594fc23a41f102d8c7aeb4c9cf4f9f.png
    数据清洗7步骤

    ①选择子集

    从原始数据中可以使用列隐藏功能选择想要分析的部分数据为一个分析子集。尽量选择隐藏数据而不是删除数据,保证数据完整,方便以后进行其他数据分析,恢复隐藏即可(操作:全部选中→开始→格式→可见性:取消隐藏行/列)。

    ②列名重命名

    将英文名改命为中文名或者改命符合我们习惯的列名,容易理解的列名,方便后面处理。双击列名进行修改。

    ③删除重复值

    列名**ID是数据的唯一标识,不应有重复数据。

    操作:数据→删除重复项→取消全选→勾选**ID→确定

    ④缺失值处理

    由于各种因素拿到数据往往不一定完整。

    首先要检查数据是否完整,操作:选中整列→在右下角查看计数,

    一般**ID为唯一标识数据,应为完整信息数,对比查看其他列,查看是否有缺失值。

    找到缺失值后如何处理?有以下四种处理:

    ❶快速定位到缺失值,人工补全(适用于较少数字填补);

    操作:开始→查找和选择→定位条件→确定,则缺失值同时被选中,

    若单元格内容全部相同,则在活动单元格中填入内容后,按Ctrl+enter,则所有单元格输入相同内容;若单元格内容各不相同,则一一手动输入。

    ❷删除缺失值;

    ❸用平均值代替缺失值;

    ❹用统计模型计算出后代替缺失值。

    应用较少,因为对模型参数要求很高,参数不正确,应用模型估计出来的缺失值结果也不真实。

    ⑤一致化处理

    数据要有统一的标准和命名

    0cce7feca0dc94dfef7cc5f48578f5a9.png

    如上图所示单元格内容格式不统一,我们用分列功能进行一致化处理。注意分列后会把右侧连着的单元格内容覆盖掉,所以先复制粘贴到最后一列进行操作(或提前插入一空白列,或分列到指定区域)

    操作:数据→分列→分隔符号

    40dadb3e0c7055b68dddf596f9cce798.png

    薪水列为字符串型,不方便后续计算,要先把它改为数值型。

    有两种方法:方法一是先分列,以“-”拆分得到两列数据,利用替换功能删除k字符串;

    另一种方法是利用文本函数查找方法,具体操作为:

    选中要插入函数的单元格→公式→插入函数→搜索函数→转到→选择函数→确定→具体设置函数内容

    ★查找一个字符串在另一个字符串中出现的起始位置:Find(要查找的字符串,字符串所在单元格)

    截取字符串中内容:Left/Right/Mid

    Left/Right(字符串所在单元格位置,从左/右开始到XX位置开始截取)

    Mid(字符串所在位置,开始位置,截取长度)

    ★统计文本字符串中字符的个数Len(要查找的字符串)

    ★对单元格数据的个数进行计数Count函数,只能对数字数据统计,忽略逻辑型和文本型。

    ❸错误值处理,通过筛选查看原因(多次反复不断调整)

    操作:数据→筛选→点击下拉框→出现了#Value!→仅筛选#Value!

    查看原数据,原因是刚剪取数据以k区分,而原数据中是K(截取区分大小写

    查找替换,把K改为k,操作:选中这一列→开始→查找和替换(Ctrl+F)→替换→设置K改为k→全部替换

    ❹字符串型数字转化为数值型

    把这一列复制为数值型→分列

    ⑥数据排序

    排序包括升序与降序

    操作:选择列→开始→排序与筛选→降序→扩展选定区域(表示其他区域跟着一起排序)

    ⑦异常值处理

    异常值处理是用数据透视表进行的,先来了解数据透视表。

    数据透视表的原理:数据处理模式(Split—Apply—Combine)

    da549c74da86d016da15cde9d8bc29eb.png

    ❶数据分组:按相同属性特征对数据进行分组

    ❷应用函数:分别对各组数据用函数分析计算

    ❸组合结果:将分组计算的结果合并到一张表格里。

    操作:插入→数据透视表→拖动标签到行、列、值、筛选器

    数值设置格式:右击→值汇总依据(如求和、平均值、最值等)、值汇总显示方式(列百分比、行百分比等)、

    分组依据设置格式:右击→创建组(按年、月、周(日,步长为7)、日分组统计)、值字段设置(如求和、平均值、最值等)

    Step4.构建模型

    1.数据透视表

    2.描述统计分析,操作:数据→数据分析→描述统计分析

    ce9a77dc2b40510f54b833a6f7217c5e.png

    Step5.数据可视化

    三、补充专题

    专题一:日期数据处理

    Step1.由于统计数据来源不同,日期格式不统一,操作:分列→列数据类型:日期(YMD)

    Step2.还是有个别数据结果不统一,需要调整异常值,操作:设置单元格→日期型

    专题二:多表关联查询vlookup

    ❶多个表格数据匹配,Vlookup(找什么,在哪找,第几列,准确查找还是近似找)

    公式→插入函数→vlookup函数

    d267de3b21ab1907edb27487afb1e44e.png

    注意:选中查找范围的第一列必须是要查找的值

    精确查找是指从第一行开始到最后一行逐个查找,一找到第一个匹配的值就停止查找,返回第一个查找到的值;模糊查找是查遍所有数据,返回最后一个匹配到的值。

    如果有多个值满足条件,找出所有重复值:增加一个辅助列,姓名&学号联合起来,用辅助列查找。

    ❷对数据分组

    先建立一个分组定义,再使用Vlookup函数,查找范围要绝对引用,分组查找的是范围所以要使用模糊查找

    7d0ccf0bc8eb937ef25482e5c80451dd.png

    专题三:三种引用方式

    相对引用、绝对引用、混合引用

    四、犯错提醒

    1.删除重复值后要保存

    2.建立数据透视表不能有空白列名

    五、案例分析

    接下来我们利用拍拍贷的数据进行具体分析。

    (一)、提出问题

    初始评级和逾期有什么关系?初始评级准确吗?

    需要的字段:Listingid、还款状态、到期日期、还款日期、recorddate

    (二)、数据理解

    信贷业务指标可以从不同角度有多种分类,如借款端、出借端。

    本案例按照借款端将指标可以归类为:

    891f3814b856b670e1a288b3ea09830a.png

    (三)、数据清洗

    1.选择子集

    针对研究不同问题,可以先隐藏不同无关字段,这里不再一一赘述。

    2.列名重命名

    这里列名均为中文,且均为我们日常可理解的名称,所以不做修改。

    3.删除重复值

    以列表序号listingID为列表的唯一键,以其作为删除重复值的唯一标识。

    8d874e0c38655ccb1e707219e3f5b097.png

    4.补充缺失值

    以listingID为列表的唯一键,查看其它列是否完整,均为328553个数据,没有缺失值。

    5.一致化处理 6.排序 7.异常值处理

    (四)、构建模型与可视化

    通过逾期情况来判断初始评级是否准确。

    新添字段“是否逾期”,如果逾期,设置值为1,未逾期设置值为0.

    ecb3a26e04aa81c89af4ebdaf7eb5a1d.png

    根据此分析逻辑填补是否逾期列的值0/1。

    18d70e9180b7f78ea1976bf9103be8f7.png

    然后通过Vlookup函数将LC表格中的初始评级数据导入到LP表格中

    a959343a922b6e1dda31c6072445bf0a.png

    利用数据透视表进行分析。通过图表我们大概可以看出,初始评级越低,逾期情况越严重,逾期占比越高。

    cac16722bd05517fd9949449e15da4de.png

    a682453e6449d72616f6caa4e6ec779d.png
    展开全文
  • 数据类型设置为int型或者其它数值型,字段属性不选择

    数据类型设置为int型或者其它数值型,字段属性不选择

    展开全文
  • 常见的数据类型数值型:整型小数:定点数浮点数字符型:较短的文本:char、varchar较长的文本:text、blob(较长的二进制数据) # blob /blɒb/ 二进制大对象日期型:1.整型分类:整数类型字节范围Tinyint1有符号:-...

    常见的数据类型

    数值型:

    整型

    小数:

    定点数

    浮点数

    字符型:

    较短的文本:char、varchar

    较长的文本:text、blob(较长的二进制数据) # blob /blɒb/ 二进制大对象

    日期型:

    1.整型

    分类:

    整数类型

    字节

    范围

    Tinyint

    1

    有符号:-128~127 无符号:0~255 /ˈtaɪ ni/ 微小的

    Smallint

    2

    有符号:-32768~32767 无符号:0~65535 /smɔːl/小的

    Mediumint

    3

    有符号:-8388608~8388607 无符号:0~1677215 /ˈmiːdiəm/中等的

    Int、Integer

    4

    有符号:-2147483648~2147483647 无符号:0~4294967295

    Bigint

    8

    有符号:-9223372036854775808~9223372036854775807 无符号:0~923372036854775807*2+1

    特点:

    ① 如果不设置无符号还是有符号,默认是有符号,如果想设置无符号,需要添加unsigned关键字 /ʌn' saɪ nd/

    ② 如果插入的数值超出了整型的范围,会报out of range异常,并且插入临界值(临界值指的是做大的那个值)

    ③ 如果不设置长度,会有默认的长度

    长度代表了显示的最大宽度,如果不够会用0在左边填充,但必须搭配zerofill使用。 /ˈzɪərəʊ//fɪl/补零

    例如:int默认长度11,若设置宽度为7,设置值为123,搭配zerofill,则显示为0000123。

    问题:创建表时,列设置int类型并设置显示宽度,当插入数据的长度超过了设置类型的宽度,结果依然显示插入的数据

    若设置宽度为3,插入数据1000,结果依然显示1000,长度代表了显示的最大宽度,若实际数据宽度超过设置宽度,结果依然以实际数据宽度显示,但要保证数据不超过类型范围。

    另一问题:这个M既然只要我能保证在所属类型范围之内,是不是可以随意去定义了

    当然不是,首先设置M肯定要跟实际的业务数据相关,多设置浪费存储空间。另外如果设置了填充0,小于设置宽度的值左侧会填充0

    1.如何设置无符号和有符号

    DROP TABLE IF EXISTS tab_int;

    CREATE TABLE tab_int(

    t1 INT(7) ZEROFILL,

    t2 INT(7) UNSIGNED

    );

    DESC tab_int;

    INSERT INTO tab_int VALUES(-123456);

    INSERT INTO tab_int VALUES(-123456,-123456);

    INSERT INTO tab_int VALUES(214748364894967296);

    INSERT INTO tab_int VALUES(123,123);

    SELECT * FROM tab_int;

    2.小数

    分类:

    浮点数类型

    字节

    范围

    float

    4

    ±1.75494351E-38~±3.402823466E+38

    double

    8

    ±2.2250738585072014E-308~±1.7976931348623157+308

    定点数类型

    字节

    范围

    DECIMAL(M,D)

    M+2

    最大取值范围与double相同,给定dicimal的有效值取值范围由M和D决定

    分类:

    1.浮点型

    float(M,D)

    double(M,D)

    2.定点型

    decimal(M,D) /ˈdesɪml/小数的

    dec(M,D) 简写形式

    特点:

    M:整数部分位数+小数点后位数

    D:小数点后位数

    如果超过范围,则插入临界值

    M和D都可以省略

    如果是decimal,则M默认为10,D默认为0

    如果是float和double,则会根据插入的数值的精度来决定精度

    ③定点型的精确度较高,如果要求插入数值的精度较高如货币运算等则考虑使用

    测试M和D

    DROP TABLE tab_float;

    CREATE TABLE tab_float(

    f1 FLOAT,

    f2 DOUBLE,

    f3 DECIMAL

    );

    SELECT * FROM tab_float;

    DESC tab_float;

    INSERT INTO tab_float VALUES(123.4523,123.4523,123.4523);

    INSERT INTO tab_float VALUES(123.456,123.456,123.456);

    INSERT INTO tab_float VALUES(123.4,123.4,123.4);

    INSERT INTO tab_float VALUES(1523.4,1523.4,1523.4);

    原则:

    所选择的类型越简单越好,能保存数值的类型越小越好

    3.字符型

    char和varchar类型:用来保存MySQL中较短的字符串

    字符串类型

    最多字符数

    描述及存储需求

    char(M)

    M

    M为0~255之间的整数

    varchar

    M

    M为0~65535之间的整数

    char代表固定长度字符,varchar代表可变长度字符

    特点:

    写法

    M的意思

    特点

    空间耗费

    效率

    char

    char(M)

    最大的字符数(可以省略,默认为1)

    固定长度的字符

    比较耗费

    varchar

    varchar(M)

    最大的字符数(不可以省略)

    可变长度的字符

    比较节省

    varchar(M):M代表最大字符数,不可省略。

    char(M)和varchar(M)类型的M代表实际的存储字符长度,超过的字符会被截掉

    较短的文本:

    char

    varchar

    较长的文本:

    text

    blob(较大的二进制)

    其他:

    binary 和 varbinary用于保存较短的二进制

    enum用于保存枚举

    set用于保存集合

    enum用于保存枚举:

    说明:又称为枚举类型,要求插入的值必须属于列表中指定的值之一。

    如果列表成员为1~255,则需要1个字节存储

    如果列表成员为255~65535,则需要2个字节存储

    最多需要65535个成员。

    CREATE TABLE tab_char(

    c1 ENUM('a','b','c')

    );

    INSERT INTO tab_char VALUES('a');

    INSERT INTO tab_char VALUES('b');

    INSERT INTO tab_char VALUES('c');

    INSERT INTO tab_char VALUES('m'); # 超出了枚举的列表值,所以插入失败

    INSERT INTO tab_char VALUES('A');

    SELECT * FROM tab_set;

    set用于保存集合:

    说明:和Enum类型类似,里面可以保存0~64个成员。和Enum类型最大的区别是:SET类型一次可以选取多个成员,而Enum只能选一个,根据成员个数不同,存储所占的字节也不同。

    成员数字节数

    1~81

    9~162

    17~243

    25~324

    33~648

    不区分大小写

    CREATE TABLE tab_set(

    s1 SET('a','b','c','d')

    );

    INSERT INTO tab_set VALUES('a');

    INSERT INTO tab_set VALUES('A,B');

    INSERT INTO tab_set VALUES('a,c,d');

    4.日期型

    分类:

    日期和时间类型

    字节

    最小值

    最大值

    date

    4

    1000-01-01

    9999-12-31

    datetime

    8

    1000-01-01 00:00:00

    9999-12-31 23:59:59

    timestamp

    4

    19700101080001

    2038年的某个时刻

    time

    3

    -838:59:59

    838:59:59

    year

    1

    1901

    2155

    分类:

    date保存日期

    time只保存时间

    year只保存年

    datetime与timestamp区别:

    datetime保存日期+时间

    timestamp保存日期+时间的时间戳

    1.timestamp支持的时间范围较小,取值范围:19700101080001~2038年的某个时间

    datetime的取值范围:1000-1-1~9999-12-31

    2.timestamp和实际时区有关,更能反映实际的日期,而datetime则只能反映出插入时的当地时区

    3.timestamp的属性受MySQL版本和SQLMode的影响很大。

    CREATE TABLE tab_date(

    t1 DATETIME,

    t2 TIMESTAMP

    );

    INSERT INTO tab_date VALUES(NOW(),NOW());

    SELECT * FROM tab_date;

    SHOW VARIABLES LIKE 'time_zone'; # 查看时区

    SET time_zone='+9:00'; # 设置时区,东9区

    展开全文
  • 如果有一列(或一行)数字都是用这种方法输入的,现在又需要将其格式全部转为数值型,该如何做呢?又或者使用软件批量导出的数据,全都是这种格式如何处理呢?一、批量办法最简单的方案如上图,13以上就可以,我用19...

    不明绝厉

    在Excel中的单元格中输入数字时,如果在数字前加上一个半角单引号(')则该数字在单元格中的存储格式会自己转为“文本格式”。

    如果有一列(或一行)数字都是用这种方法输入的,现在又需要将其格式全部转为数值型,该如何做呢?

    又或者使用软件批量导出的数据,全都是这种格式如何处理呢?

    一、批量办法

    30508ea982169fe7056d380a049a6731.png

    最简单的方案如上图,13以上就可以,我用19真香!

    如果输入时没有在前面加单引号,只是将格式设置成“文本格式”的话,则可以通过更改单元格格式的办法来批量转换。但即使前面加了单引号,选中此列中所有数字,在“格式/单元格/数字”选项卡中将格式设置为“数值”,确定后发现,这些数字仍旧是以文本方式保存的,这是因为前导单引号具有“强制转换”作用。

    另外,由于这个单引号在此是起格式控制作用的,因此用查找替换的方法也是找不到它的。怎么办呢?其实还有更简单的方法。

    第一步,在工作表选中任一空白单元格,然后在该单元格上单击鼠标右键,选择“复制”。

    第二步,选中所有要转换的单元格范围,单击鼠标右键,在右键快捷菜单中选择“选择性粘贴”,在弹出的“选择性粘贴”对话框中“运算”区域选择“加”,单击“确定”按钮结束,即可一次性将所有单元格转换为数字格式。

    二、少数列或单元格

    在隔壁单元格输入“=--A1”(A1是引用)即可,下拉拖动

    或者,=value(A1),A1是引用。

    注意到方法二,是对单列或者单个单元格,方法一则是整体位置不变动!

    参考链接:

    EXCEL文本转数值方法---我找的好苦啊_Andes Home 千年的塔 -十年技术,风雨兼程-CSDN博客

    三、Excel 2019

    选中数值那些值,鼠标右键,转换为数值。最方便最快捷的办法,前提你安装了2019.

    展开全文
  • 如何修改excel中单元格的数据类型文本,数值,日期,逻辑。其他的按f1看看帮助吧。编程 ,用matlab读取excel,但是表格里面的数据类型不同(比如字符,整型),这个是不是得那个‘abc’等非字是导入不了的吧,如果你...
  • 在处理cxgrid数据导出到Excel时,遇到了不少问题,其中最主要的问题是导出数据的格式设置。...其次是如何解决数值型导出到Excel变成带货币符号的货币型而非数值型问题。 虽然cxgrid的帮助文档中对于c...
  • 在SQL 2008中如何设置自增列

    千次阅读 热门讨论 2014-03-15 15:33:50
     列的数据类型是不带小数点的数值型,在进行插入操作时,该列的值是由系统按一定规律生成,不允许为空值;列值不重复,具有标识表中每一行的作用,每一个表只能有一个标识列。  它在数据库设计中广泛应用,那么...
  • 在设计业务数据库的时候,为了减少存储,通常会将一些可列举值的字段,设置成数字(tinyint),比如应用的角色(学生、教师),性别(男,女)等 在Java代码中,使用枚举类型(enum)来声明这些数据域,这就涉及到了一个...
  • ​在知识星球遇到的问题中,有不少朋友问如何修改数值型度量值的格式,比如,新建的度量值如何显示为百分比或者千分位等等,这篇文章就帮你掌握修改格式的几种方式。假设已经建好了度量值:收入 = SUM('订单'[销售额...
  • 可以右击点击设置单元格格式,把类型改为数值型的,并改变小数位数,使之所有的小数显现出来,然后点击确定就可以了。
  • MySQL常见的数据类型 ...如何设置无符号和有符号 ②如果插入的数值超出了整型的范围,会报out of range异常,并且插入临界值 ③如果不设置长度,会有默认的长度 长度代表了显示的最大宽度,如果不够会用0
  • 用的是sqlserver2005,里面...但是奇怪的是,数据库将column1中储存的字段转化为了int,这样一来'2301'和'002301'就都转化为2301了,所以查出来了两条数据。现在我就是想知道该怎么禁止查询时数据库数值类型的转化?
  • MySQL-数据类型

    2019-10-10 19:34:02
    文章目录数据类型数值型整形特点如何设置无符号小数定点数浮点数字符型较短文本char和varchar的区别较长文本日期型查看和更改时区 数据类型 数值型 整形 整数类型 字节 范围 tinyint 1 有符号:-128 ~ 127 ...
  • 文本数据

    2020-06-26 23:59:30
    【问题一】 str对象方法和df/Series对象...【问题二】 给出一列string类型,如何判断单元格是否是数值型数据? 【问题三】 rsplit方法的作用是什么?它在什么场合下适用? 【问题四】 在本章的第二到第四节分别介绍了字
  • 1数据透视表刷新后如何保持调整好的列宽.xls4.1.2-2在应用了自动套用格式的数据透视表里保持列宽.xls4.1.3控制数据透视表的行列总计与分类汇总.xls4.1.3-3使用VBA代码控制数据透视表保持固定格式.xls4.1.4控制...
  • 数值型: 整型 小数:定点数、浮点数 字符型:短文本(CHAR VARCHAR)、长文本(TEXT BLOB较长的二进制数据) 日期型 1、整型 ​​分类:TINYINT、SMALLINT、MEDIUMINT、INT(INTEGER)、BIGINT 特点: ①测试如何...
  • 如果有一列(或一行)数字都是用这种方法输入的,现在又需要将其格式全部转为数值型,该如何做呢?又或者使用软件批量导出的数据,全都是这种格式如何处理呢?一、批量办法最简单的方案如上图,13以上就可以,我用19...
  • MySQL之数据类型

    2019-12-05 17:13:02
    一、数值型: 整型: tinyint1字节、smallint2字节、mediumint3字节、int(integer)4字节、bigint8字节 如何设置有符号和无符号? 例如: create table tab_int( t1 int, t2 int unsigned #无符号 ) 如果插入的...
  • 如何设置无符号和有符号二、小数测试M和D原则:三、字符型四、日期型 常见的数据类型 /* 数值型: 整型 小数: 定点数 浮点数 字符型: 较短的文本:char、varchar 较长的文本:text、blob(较长的二进制...
  • 1 数值型: 整型 小数:定点数,浮点数 2 字符型: 较短的文本:char、varchar 较长的文本:text、blob(较长的二进制数据) 3 日期型 整型 分类: tinyint 、smallint、mediumint、int/integer、bigint 1 ...
  • 这篇文章主要针对Redis中不同数据类型在各种业务场景下的应用进行一个介绍,以加深我们对Redis中数据类特性和操作的概念印象。 字符串 扩展操作 业务场景 大型企业级应用中,分表操作是基本操作,使用多...设置数值数据
  • CentOS7下安装并简单设置PostgreSQL笔记为什么是PostgreSQL? 在.NET Core诞生之前,微软平台上最常见的开发组件便是.NET ...指针数据类型 基本数据类型:数值型.字符型(char).布尔型.空类型(void)指针数据类型:类(c...
  • 它的作用:定义index下的字段名定义字段类型,比如数值型、浮点型、布尔型等定义倒排索引相关的设置,比如是否索引、记录position等为了简单理解,可以把它理解为数据库中的表结构定义,比如说msql中定义一个表,...
  • 3.1.1 如何导入CSV 数据 36 3.1.2 将代码保存到文件中并在命令行中运行 39 3.2 JSON 数据 41 3.3 XML 数据 44 3.4 小结 56 第4 章 处理Excel 文件 58 4.1 安装Python 包 58 4.2 解析...
  • 表达式求值 数据结构

    2009-11-08 11:29:10
    一、问题描述 ...(6) 在程序中会用到两类栈:操作数栈和运算符栈,分别为 float 型数据和字符型数据, 思考在同一个程序中如何处理两类不同的数据类型? (7) 算符之间的优先关系参考课本 P53 页表 3.1 。

空空如也

空空如也

1 2 3 4 5 ... 13
收藏数 241
精华内容 96
关键字:

如何设置数值型数据