精华内容
下载资源
问答
  • UCI Germny Credit 数值型数据集独立测试数据,按70%比例抽取,剩余30%独立测试。 UCI Germny Credit 数值型数据集独立测试数据.csv
  • 数值型数据的整理与展示数据分组1. 组距分组 (要点)2. 组距分组 (步骤)3. 组距分组 (几个概念)数值型数据的图示1. 分组数据—直方图 (histogram)2. 未分组数据—茎叶图和箱线图3. 时间序列数据—线图 (line plot)4....


    数据分组

    1. 组距分组 (要点)

    • 将变量值的一个区间作为一组
    • 适合于连续变量
    • 适合于变量值较多的情况
    • 需要遵循“不重不漏”的原则
    • 可采用等距分组,也可采用不等距分组

    2. 组距分组 (步骤)

    • (1)确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,组数一般为5K 15
    • (2)确定组距:组距(Class Width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即  组距=( 最大值 - 最小值)÷ 组数
    • (3)统计出各组的频数并整理成频数分布表

    3. 组距分组 (几个概念)

    • 下限(lower limit) :一个组的最小值
    • 上限(upper limit) :一个组的最大值
    • 组距(class width) :上限与下限之差
    • 组中值(class midpoint) :下限与上限之间的中点值

    数值型数据的图示

    分组数据——直方图和折线图

    1. 分组数据—直方图 (histogram)

    • 用于展示分组数据分布的一种图形
    • 用矩形的宽度和高度来表示频数分布
      • 本质上是用矩形的面积来表示频数分布
    • 在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图

    直方图与条形图的区别

    • 条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的
    • 直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义
    • 直方图的各矩形通常是连续排列,条形图则是分开排列
    • 条形图主要用于展示分类数据,直方图则主要用于展示数值型数据

    2. 未分组数据—茎叶图和箱线图

    (1)未分组数据—茎叶图 (stem-and-leaf display)

    • 用于显示未分组的原始数据的分布
    • 由“茎”和“叶”两部分构成,其图形由数字组成
    • 以该组数据的高位数值作树茎,低位数字作树叶
    • 树叶上只保留最后一位数字
    • 茎叶图类似于横置的直方图,但又有区别
      • 直方图可观察一组数据的分布状况,但没有给出具体数值
      • 茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息
      • 直方图适用于大批量数据,茎叶图适用于小批量数据

    (2)未分组数据—箱线图 (box plot)

    • 用于显示未分组的原始数据的分布
    • 由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成
    • 绘制方法
      • 首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU)
      • 连接两个四分位数画出箱子,再将两个极值点与箱子相连接
      • 该箱线图也称为Median/Quart./Range箱线图

    3. 时间序列数据—线图 (line plot)

    • 表示时间序列数据趋势的图形
    • 时间一般绘在横轴,数据绘在纵轴
    • 图形的长宽比例大致为10 : 7  一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断

    4.多变量数据的图示

    (1)两个变量间的关系—二维散点图 (2D Scatterplots)

    • 展示两个变量之间的关系
    • 用横轴代表变量x,纵轴代表变量y,每组数据(xi,yi)在坐标系中用一个点表示,n组数据在坐标系中形成的n个点称为散点,由坐标及其散点形成的二维数据图

    (2)三个变量间的关系—气泡图 (bubble chart)

    • 显示三个变量之间的关系
    • 图中数据点的大小依赖于第三个变量

    (3)多变量数据—雷达图 (radar chart)

    • 也称为蜘蛛图(spider chart)
    • 显示多个变量的图示方法
    • 在显示或对比各变量的数值总和时十分有用
    • 假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比
    • 可用于研究多个样本之间的相似程度
    • 雷达图的制作
      • 设有n组样本S1,S2,… , Sn,每个样本测得P个变量X1,X2 ,… , XP,要绘制这P个变量的雷达图,其具体做法是
      • 先做一个圆,然后将圆P等分,得到P个点,令这P个点分别对应P个变量,在将这P个点与圆心连线,得到P个幅射状的半径,这P个半径分别作为P个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表示
      • 将同一样本的值在P个坐标上的点连线。这样,n个样本形成的n个多边形就是一个雷达图
    展开全文
  • 对单列数据进行统计 加载数据 import pandas as pd ...常见的数值统计的方法如下: 统计detail中的,单价相关指标 print('最大值',detail.loc[:,'amounts'].max()) print('最小值',detail.loc[:,'amo...

    对单列数据进行统计

    加载数据

    import pandas as pd
    
    detail = pd.read_excel('./meal_order_detail.xlsx')

    常见的数值统计的方法如下:

    统计detail中的,单价相关指标
    print('最大值',detail.loc[:,'amounts'].max())
    print('最小值',detail.loc[:,'amounts'].min())
    print('均值',detail.loc[:,'amounts'].mean())
    print('中位数',detail.loc[:,'amounts'].median())
    print('方差',detail.loc[:,'amounts'].var())
    print('极差',detail.loc[:,'amounts'].ptp())
    print('标准差',detail.loc[:,'amounts'].std())
    print('众数',detail.loc[:,'amounts'].mode())
    print('非空值的数目',detail.loc[:,'amounts'].count())
    print('最大值的位置',detail.loc[:,'amounts'].idxmax())
    print('最小值的位置',detail.loc[:,'amounts'].idxmin())

    describe对于数值型的数据返回8中统计结果

    print('describe',detail.loc[:,'amounts'].describe())

    对多列数据进行统计

    格式如下:

    print('describe',detail.loc[:,['amounts','counts']].describe())  

    简单来说,列的位置加入列名称列表即可

    非数值统计统计

    对于dataframe转化数据类型

    其他类型转化成object,非数值型返回4个数据

    detail.loc[:,'amounts'] = detail.loc[:,'amounts'].astype('object')  
    print(detail.loc[:,'amounts'].describe()
    print(detail.loc[:,'amounts'].dtypes)   

     

    其他类型数据转化成类别型数据

    detail.loc[:,'amounts'] = detail.loc[:,'amounts'].astype('category') 
    print(detail.loc[:,'amounts'].describe()
    print(detail.loc[:,'amounts'].dtypes)   

    detail中那些菜品最火?菜品卖出多少份?

    detail.loc[:,'dishes_name'] = detail.loc[:,'dishes_name'].astype('category')
    print('按照deshed_name统计描述信息:',detail.loc[:,'dishes_name'].describe())        

    发现这里的最火菜品是大碗白饭,但是大碗白饭不是菜品,所有重新计算。

    删除数据中的大碗白饭

    bool_id = detail.loc[:,'dishes_name'] == '白饭/大碗'
    index = detail.loc[bool_id,:].index             
    detail.drop(labels=index,axis=0,inplace=True)   

    把数据类型重新转化,然后再赋给数据本身。

    detail.loc[:,'dishes_name'] = detail.loc[:,'dishes_name'].astype('category')  
    #  在进行统计描述信息                                                                  
    print("按照dishes_name统计描述信息:\n",detail.loc[:,'dishes_name'].describe())        

    在返回数据为

    detail.loc[:,'dishes_name'] = detail.loc[:,'dishes_name'].astype('category')  
    #  在进行统计描述信息                                                                  
    print("按照dishes_name统计描述信息:\n",detail.loc[:,'dishes_name'].describe())        

    在detail中哪个菜品点的最多,点了多少分菜?

    将order_id转变成类别型数据,再进行describe

    detail.loc[:,'order_id'] = detail.loc[:,'order_id'].astype('category')    
    print('按照order_id统计描述信息为:',detail.loc[:,'order_id'].describe())           

    建议在使用时,把数据类型转成category,然后再计算

    展开全文
  • MySQL数据类型 -- 数值型

    千次阅读 2018-09-23 17:45:07
    它主要分为3大类,即:数值型,日期时间性,字符型。而实际上这三类数据类型可以进一步的细分扩展,可以根据业务需要选择最适合的一种。本文主要介绍数值类型,并演示其用法。 ###一、数值型 MySQL支持所有标准SQL的...

    在MySQL关系型数据库中,MySQL支持的数据类型非常丰富。它主要分为3大类,即:数值型,日期时间性,字符型。而实际上这三类数据类型可以进一步的细分扩展,可以根据业务需要选择最适合的一种。本文主要介绍数值类型,并演示其用法。

    一、数值型
    MySQL支持所有标准SQL的所有数值类型。在MySQL中,主要分为以下2大类。一类是整数类型,一类是浮点数类型,如下图所示。
    在这里插入图片描述
    整数类型
      上图中列出了整数类型的使用以及其占用字节数,括号后面的数字表示最大显示宽度,与存储空间无关。

    整数类型
      上图中列出了浮点数类型的使用方法,m表示整数位长度,n表示小数点后的位数。

    二、数值型演示

    mysql> CREATE TABLE t_num
        -> (
        -> id1 int,
        -> id2 int(4) ZEROFILL
        -> );
    Query OK, 0 rows affected (0.11 sec)
    
    mysql> INSERT INTO t_num
        -> VALUES (1, 1);
    Query OK, 1 row affected (0.01 sec)
    
    mysql> select * from t_num;
    +------+------+
    | id1 | id2 |
    +------+------+
    | 1 | 0001 | -- 注意,这里第二列,右边填充了0值
    +------+------+
    1 row in set (0.00 sec)
    
    mysql> show create table t_num\G
    *************************** 1. row ***************************
           Table: t_num
    Create Table: CREATE TABLE `t_num` (
      `id1` int(11) DEFAULT NULL, -- 未指定显示宽度的列,默认为11位
      `id2` int(4) unsigned zerofill DEFAULT NULL
    ) ENGINE=InnoDB DEFAULT CHARSET=latin1
    1 row in set (0.09 sec)
    
    -- 下面插入一个超过11位的值,报错,提示超出范围
    mysql> insert into t_num values(123456789123,2);
    ERROR 1264 (22003): Out of range value for column 'id1' at row 1
    
    -- 下面为表新增一个列,salary,其数据类型为decimal
    mysql> alter table t_num add column salary DECIMAL(5,2);
    Query OK, 0 rows affected (0.26 sec)
    Records: 0 Duplicates: 0 Warnings: 0
    
    mysql> select 'Leshami' as Author
        -> union all
        -> select 'http://blog.csdn.net/leshami';
    +------------------------------+
    | Author |
    +------------------------------+
    | Leshami |
    | http://blog.csdn.net/leshami |
    +------------------------------+
    
    -- 插入以一个decimal数据类型的值,提示报错
    -- 因为5表示的是总长度,而不是整数部分的长度
    mysql> insert into t_num values(2,2,12345.32);
    ERROR 1264 (22003): Out of range value for column 'salary' at row 1
    
    -- 再次插入,将总长度控制在5位,则成功
    mysql> insert into t_num values(2,2,123.32);
    Query OK, 1 row affected (0.02 sec)
    
    mysql> select * from t_num;
    +------+------+--------+
    | id1 | id2 | salary |
    +------+------+--------+
    | 1 | 0001 | NULL |
    | 2 | 0002 | 123.32 |
    +------+------+--------+
    2 rows in set (0.00 sec)
    
    
    展开全文
  • 今天小编就为大家分享一篇利用pandas将非数值数据转换成数值的方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
  • categorical or nominal attribute:是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来描述的。例如: (1)人口按性别分为男、女两类; (2)企业按行业属性分为医药企业、...

    1. 分类数据(categorical or nominal data)

    是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来描述的。例如:
    (1)人口按性别分为男、女两类;
    (2)企业按行业属性分为医药企业、家电企业、纺织品企业等;

    为了便于统计处理,对于分类数据可以用数字代码来表示各个类别,比如:
    用1表示“男性”,0表示“女性”;
    用1表示“医药企业”,2表示“家电企业”,3表示“纺织品企业”

    2. 顺序数据(Ordinal data)

    是只能归于某一有序类别的非数字型数据。顺序数据虽然也是类别,但这些类别是有序的。比如:
    (1)将产品分为一等品、二等品、三等品、次品等;
    (2)考试成绩可以分为优、良、中、及格、不及格等;
    (3)一个人的受教育程度可以分为小学、初中、高中、大学及以上
    (4)一个人对某一事物的态度可以分为非常同意、同意、保持中立、不同意、非常不同意,等

    同样,顺序数据也可以用数字代码来表示,比如:

    1—非常同意、2—同意、3—保持中立、4—不同意、5—非常不同意,等;

    3.数值型数据(Numerical attribute)

    是按数字尺度测量的观察值,其结果表现为具体的数值。现实中所处理的大多数都是数值型数据。

    4.小结

    分类数据和顺序数据说明的是事物的品质特征,通常是用文字来表述的,其结果均表现为类别,因而也可统称为定性数据或品质数据(qualitative data);

    数值型数据说明的是现象的数量特征,通常是用数值来表现的,因此也可以称为定量数据或数量数据(quantitative data)

    展开全文
  • 回归 - 输入区域包含非数值型数据 每天一点点,记录工作中实操可行 excel中在用f1:h128范围的数据做做回归分析时,一直提示“回归 - 输入区域包含非数值型数据”,不要把第一行的标题放在内,把 x区域设置为$F2:2:2:...
  • 处理分类数据数值型编码

    千次阅读 2018-06-06 19:19:28
    当我们讨论分类型数据时,我们不区分其取值是否有序。比如T恤尺寸是有序的,因为XL>L>M。而T恤颜色是无序的。在讲解处理分类数据的技巧之前,我们先创建一个新的DataFrame对象:上面创建的数据集含有...
  • 数值型数据的表示

    千次阅读 2018-10-12 22:48:37
    一个数值型数据的完整表示包含三方面: (1)采用什么进位计数制,通俗地讲,就是逢几进几; (2)如何表示一个带符号的数,即如何使符号数字化,这就涉及机器数的编码方法,常用的有原码和补码。 (3)小数点应该如何...
  • (1)char字符型数据可以转换成任意一种数值类型,反之亦然。将整数转换成插入型数据时,只用到该数据的低十六位,其余部分被忽略。如:char ch=(char)0xAB0041;...(3)当char型数据转换成数值型时...
  • 【标称型数据和数值型数据】 监督学习一般使用两种类型的目标变量:标称型和数值型 标称型:一般在有限的数据中取,而且只存在‘是’和‘否’两种不同的结果(一般用于分类) 数值型:可以在无限的数据中取,而且...
  • 预测数值型数据:回归

    千次阅读 2017-08-29 17:02:01
    本文首先介绍线性回归(具体概念解释可以参考CS229,吴恩达讲义的译文:传送...在这之后引入了局部平滑技术,分析如何更好地你和数据。接下来,本文将探讨回归在"欠拟合"情况下的shrinkage技术,探讨偏差和方差的概念。
  • 假设000001、000012、000123、002345、600356、600378为某些上市公司证券代码,上市公司实证研究中,常常需要用到上市公司证券代码,将字符型转为数值型比较容易,直接用destring命令即可实现,但是数值型转为字符型...
  • 线性回归处理非数值型数据

    千次阅读 2019-10-06 18:59:11
    线性回归中经常会遇到非数值型数据,即分类型数据,比如性别、所属省份、专业类型等等 分类型数据无法量化,一般会采用哑数据进行处理 如某个数据分为A、B、C三类,即可采用两个哑数据a,b 类型为A时,a=1,b=0 ...
  • python 分类型数据转化数值型

    千次阅读 2020-04-21 23:37:25
    将分类型变量转换成数值型变量的两种方法 一、map映射 性别映射数值 先创建一个map ,再将map映射到表格中的值 sex_mapping = {"male": 0, "female": 1} train_df['Sex'] = train_df['Sex'].map(sex_mapping) 二、...
  • 标称型数据和数值型数据

    万次阅读 多人点赞 2017-09-19 10:35:51
    在学习机器学习的工程中,发现有一种名为标称型的数据,具体如下: 标称型:一般在有限的数据中取,而且只存在‘是’...数值型:可以在无限的数据中取,而且数值比较具体化,例如4.02,6.23这种值(一般用于回归分析)
  • 分类数据与数值型数据分组 绘制条形图,分组条形图,堆砌条形图,饼图,直方图,茎叶图,箱线图,小提琴图,散点图,3d散点图,气泡图 #数据预处理 load("E:\\研究生学习\\大数据统计基础\\ch2\\example2_1.RData") ...
  • Python数据类型——数值型详解

    千次阅读 多人点赞 2020-05-14 00:52:54
    上一篇博客:Python的变量和数据类型 简单的写了一下Python中的数据类型有哪些,本篇我们来详细的学习一下Python中的数据类型以及其应用。
  • 基本数据类型分为数值型、字符型和布尔类型 数值型 数值型分为整数型和浮点型(小数型) 整数型 包含:int、 short、 byte、long 浮点型(小数型) 包含:float、double 字符型(char) 布尔型...
  • 这个时候可以通过*1将文本型数据快速转换为数值型数据。 如下所示: 其中clean函数用于去除字符串中的非打印字符,如Tab制表符等。通过*1,单元格中的内容靠右显示,表示已成功转换为数值型数据。 ...
  • 本文介绍 Python数据分析师 统计学中需要掌数值型数据的知识。 可以学习到以下知识: 使用直方图掌握数据的整体状态。 数学原理掌握数据的状态有平均数、中位数、标准差。 中位数与均值间的平衡状态。 标准差是表示...
  • 对第一天所学知识点进行回顾... 操作数据的指令集合:SQL(DDL:数据定义,DML(DQL):数据操作查询,DCL:(数据控制)) 完整性约束:表内与表之间(实体) mysql关系数据库:c/s结构软件(连接认证,发送SQL指...
  • 标称型和数值型数据

    千次阅读 2017-10-29 14:14:05
    监督学习一般使用两种类型的目标变量:标称型和数值型标称型:标称型目标变量的结果只在有限目标集中取值,如真与假(标称型目标变量主要用于分类)数值型数值型目标变量则可以从无限的数值集合中取值
  • 一般机器学习数据预处理过程中,对于数值型特征编码可以采用如下几种方式: 1、one-hot编码(独热编码) 2、映射有序特征 one-hot编码(独热编码): 如果该特征下可以分为多个类别,且各类别是并列关系,则...
  • 数值类型数据表示

    千次阅读 2020-07-30 15:30:23
    字符编码ASCII码 目前,国际上普遍采用的一种字符系统是7位二进制编码的ASCII码。 在ASCII码中,编码值0~31为控制字符,用于通信控制或设备的功能控制,编码127是DEL码,编码值32是空格sp,编码值32-126共95个字符...
  • 数据类型不同,使用起来自然也不同了,数值型数据可以进行加减乘除操作,字符串则不行,而字符串可以进行字符串连接操作,比如将“123”和“456”连接起来,就是“123456”了,数字字符串可以通过基本数据类型的包装...
  • LABVIEW数值型数据类型及切换

    千次阅读 2019-11-19 15:14:00
    数值型是labview的一种基本的数据类型,可以分为浮点型、整数型和复数型3种基本形式,其类型的详细分类如下表所示。 数值类型 图标 存储占位数 数值范围 64位整型 ...
  • Pandas读取后会认为这是个字符,而这样的数据还不能直接用类型转换实现。正确的用法如下: data['amount'] = data['amount'].apply( lambda x: float(x.split()[0].replace(',', '')) if(',' in str(...
  • matlab中定义数值型数据和相关函数

    千次阅读 2019-11-04 19:18:48
    主要介绍数值型数据。 1 数值型 首先数值型分为三种类型:整数、浮点数、复数 1.1 整数 整数分为有符号整数(int8,int16,int32,int64)和无符号整数(uint8,uint16,uint32,uint64),其中u为un...
  • 快速将非数值型目标变量转化为数值型变量,比如把[‘L’,’M’,’N’]转化为[1,2,3]或多维向量类型 转化前: df_train.y.value_counts() C 620 R 477 G 361 M 353 L 267 T 216 E 87 Name: y, dtype: int64 ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 398,480
精华内容 159,392
关键字:

对于数值型数据