精华内容
下载资源
问答
  • 事情是这样的,刚才在做一个bigint型数据的排序时,发现排序之后的结果总是按照ascii码来进行的排序,那么显然这样是不合适的。 然后我就从网上找了找,说是修改${sort}为${sort}+0就正常按照数字排序了,如下: <...

    事情是这样的,刚才在做一个bigint型数据的排序时,发现排序之后的结果总是按照ascii码来进行的排序,那么显然这样是不合适的。
    然后我就从网上找了找,说是修改${sort}为${sort}+0就正常按照数字排序了,如下:

    <choose>
          <when test="sort != null and sort.trim() != ''">
               order by ${sort}+0 ${order}
          </when>
          <otherwise>
               order by `problem_id` asc
          </otherwise>
     </choose>
    

    确实,这样是可以解决这个问题的,但是这样做,有个很明显的问题就是严重影响查询的性能,因为要给每条记录都要有个加0操作。而且这种一般是针对于字符串排序时,我们不想根据ascii码排时才这样操作。。
    那么到底该怎么解决这个问题呢?
    然后我就走了一遍这个流程,从我前端将bootstarp_table里面给problemId字段设置为了sortable,,然后一直传到mybatis,我发现这时候mybatis不知道是怎么处理的problemId字段的,我没有深入研究这个(有过研究的同学可以告知我一下),反正最后的结果就是按照了数据库中problem_id字段的ascii码进行了排序。。
    想到这里,我猜测是不是因为我给mybatis传的是problemId而不是problem_id,导致的这个问题呢?
    然后我在service层做了如下处理

    String sortField = (String) query.get("sort");//query为我封装的一个map对象
            if(sortField!=null){
                if(sortField.matches("(.*?)(Id)")){
                    query.replace("sort",sortField.split("Id")[0]+"_id");
                }
            }
    

    然后,问题完美解决了!!!
    总结:使用mybatis对于数值型数据进行排序时,我们要
    注意排序的字段名称尽量和数据库中的字段名一致!

    展开全文
  • 标称型数据类似于标签型的数据,而对于它的预测方法称为分类,连续型数据类似于预测的结果为一定范围内的连续值,对于它的预测方法称为回归。“回归”一词比较晦涩,下面说一下这个词的来源:“回归”一词是由达尔文...

    回归

    机器学习算法按照目标变量的类型,分为标称型数据和连续型数据。标称型数据类似于标签型的数据,而对于它的预测方法称为分类,连续型数据类似于预测的结果为一定范围内的连续值,对于它的预测方法称为回归。

    “回归”一词比较晦涩,下面说一下这个词的来源:

    “回归”一词是由达尔文的表兄弟Francis Galton发明的。Galton于1877年完成了第一次回归预测,目的是根据上一代豌豆种子(双亲)的尺寸来预测下一代豌豆种子(孩子)的尺寸。 Galton在大量对象上应用了回归分析,甚至包括人的身高预测。他注意到,如果双亲的高高度比平均高度高,他们的子女也倾向于比平均高度高,但尚不及双亲(笔者感觉未必,Galton并未考虑物质条件的发展会带来整体身高的增加,至少笔者感觉80,90的人普遍比父母高)。孩子的高度向着平均高度“回归”。

    回归按照方法可分为线性回归和非线性回归。线性回归适用线性方程来拟合曲线进行预测。在非线性回归中,特征之间出现非线性操作的可能性(比如相乘或者相除)。非线性回归中有种特殊的类型--逻辑回归,和线性回归不同的是,它属于“分类”的问题,这是由于它适用曲线拟合的方式来解决分类问题,所以也被称为回归。

    线性回归衡量的是两个变量之间的关系,最直接的办法就是求得一个回归方程(regression equation),将已知条件x代入方程得到预测结果y。

    假设我们获取到一个地区过去一段时间内的房价走势情况,我们根据下面的公式进行评估:

    cdbeef799bff

    上面的式子可以看到房价和房屋面积、房子朝向呈线性的关系。而求该方程的过程称为回归方程,其中0.7和0.19称为回归系数,面积和房子的朝向称为特征。

    可以看到“回归”问题最重要的是如何获得回归方程,如果得到该方程后,所有的一切问题将迎刃而解。

    假如我们用X(m×n)来表示特征的矩阵,回归系数用θ(n×1)来表示,预测结果由Y=Xθ获得。在实际应用中,我们通常认为能带来最小平方误差的θ就是我们所要寻找的回归系数向量。平方误差指的是预测值与真实值的差的平方,这种方法就称为“最小二乘法”。所以回归问题转化为如何求最小平方误差,即目标函数为:

    cdbeef799bff

    求该函数的方法很多,在此介绍一种方法:

    对θ求导: 该矩阵还可以写成

    ,如果对θ求导,就会得到

    cdbeef799bff

    cdbeef799bff

    倒数为0,求出θ

    cdbeef799bff

    注意,上述公式中包含

    ,也就是需要对矩阵求逆。因此这个方程只在逆矩阵存在的情况下适用。

    cdbeef799bff

    上面讲解了线性回归的原理,那如何将上面的算法应用到现实的场景中呢?我们使用python语言将上述的算法实现了一遍:

    defstandRegres(xArr,yArr):xMat = mat(xArr); yMat = mat(yArr).T    xTx = xMat.T*xMat# #判断是否存在逆矩阵iflinalg.det(xTx) ==0.0:print"This matrix is singular, cannot do inverse"returnws = xTx.I * (xMat.T*yMat)returnws

    得到回归系数后,还需要乘以特征值后得到预测值。

    大家会说python不是以算法包的种类多而出名吗?有现成的算法库,我干嘛还要自己去实现算法呢。当然,python里面有sklearn包中有现成的linear_model的函数可以供大家使用,而且使用方法特别简单:

    导入算法包

    fromsklearnimportdatasets, linear_model

    训练模型

    regr= linear_model.LinearRegression()regr.fit(x, mydata)

    预测

    predict_outcome= regr.predict(x)

    基本上所有的数据集都可以使用上述的方法建立模型,那么,如何来判断模型的好坏呢?如果比较一下下面两个图,如果在这两个数据集上做线性回归,那么效果肯定不相同。

    cdbeef799bff

    图1 具有相同回归系数的两组数据的对比

    我们可以计算预测值和真实值之间的误差,也就是计算这两个序列的相关系数,来评价模型的好坏。

    python中,Numpy库提供了相关系数的计算方法corrcoef(yEstimate,yActual)来计算预测值和真实值之间的相关性。可以看出具有相同回归系数的两组数据,上图的相关系数是0.58,而下图的相关系数是0.99,则可以说明该回归系数对下图使用的数据集效果要好。

    前一节我们用普通的线性回归在遇到图1的上图时候就会出现严重的欠拟合现象,这种现象在图1的下图也会反映出来。解决这种欠拟合的问题最直接的方法是牺牲普通线性回归的无偏估计方法,转为有偏估计,对预测点的周围节点赋予不同的权值。离预测点近的点赋予较高的权值,反之则赋予低的权值。这种通过改变权值的方法就叫做局部加权线性回归。

    该算法解出来回归系数的形式为:

    cdbeef799bff

    可以看到,在普通的线性回归的基础上,多了一个矩阵W,W是一个n×m的矩阵。那如何做到不同的点被赋予不同的权值呢?局部加权线性回归适用“核函数”来赋予权值,最常用的高斯核,它的权重为:

    cdbeef799bff

    可以看到高斯核中涉及到一个参数k,如何选择合适的k成为了关键的问题。图2可以看到参数k和权重的关系:

    cdbeef799bff

    图2 每个点的权重值(假设我们预测的点为x=0.5)

    在图2中,k越大,权重衰减的越慢,而k越小,权重衰减的越快,离预测点比较近的点才对预测值产生影响。

    我们采用了三种k对图1下图中的样本进行预测,结果如图3、4和5所示。

    cdbeef799bff

    图3 k为1,和普通的线性回归一样,用来做对比

    cdbeef799bff

    图4 k为0.01

    cdbeef799bff

    图5 k为0.003

    可以看到k为1时,由于是用一条直线进行拟合,所以反映不出来样本的规律,容易出现欠拟合的现象,而当k为0.003时,由于将个别样本的特例反映到整体趋势中,所以容易出现过拟合的现象。k为0.01时,效果最好。

    除了容易出现过拟合的问题外,局部加权线性回归的计算量也相当大,因为它对每个待遇测点做预测时都必须遍历整个数据集才能得出回归系数向量,使用时要加以注意。

    线性回归能够求解回归系数的前提是

    是满秩矩阵,即矩阵有逆矩阵,而如果

    cdbeef799bff

    矩阵中有某些矩阵共线,也就是

    cdbeef799bff

    的行列式为0,则这种情况就不能求出回归系数。

    cdbeef799bff

    岭回归中通过引入λI来使回归矩阵可解,则回归系数的矩阵变为:

    cdbeef799bff

    I为n*n的单位矩阵,该矩阵看起来就像一个“岭”,所以叫做岭回归,岭回归归根结底就是求λ。

    岭回归的目标函数变为:

    cdbeef799bff

    可以看到岭回归在原来普通的线性回归的基础上加入了一个二范数惩罚项,其目的在于限制回归系数矩阵的取值,减少不必要的参数。

    不同的λ将会得到不同的θ,反映不同的λ和θ的关系的图叫做岭迹图:

    cdbeef799bff

    在λ为很小的时候,θ基本上不怎么变化,而当λ很大时,θ趋于0,在中间时可以找到一个最好的回归系数,图中最好的效果是最上面的一条曲线。

    总的来说,岭回归用来处理变量之间相关度比较高的情况,它在最小二乘法的基础上加入了一个系数后,能够解决共线的问题,因而具有比较高的应用价值。

    展开全文
  • MySQL列类型 之 数值型数据列类型(数据类型)所谓的列类型,其实就是指数据类型,即对数据进行统一的分类。...在 SQL 中,将数据类型分成了三大类,分别为: - 数值型 - 字符串型 - 日期时间型对于数值型数据,可以进...

    MySQL列类型 之 数值型数据

    列类型(数据类型)

    所谓的列类型,其实就是指数据类型,即对数据进行统一的分类。数据库中每一列应该有固定的数据类型。

    如姓名应该是一个字符类型,金额应该是一个数字类型。

    区分类型,从系统的角度出发是为了能够使用统一的方式进行管理存储数据,更好的利用有限的磁盘空间。

    在 SQL 中,将数据类型分成了三大类,分别为: - 数值型 - 字符串型 - 日期时间型

    8ebe86164242330a1e379393e02c4001.png

    对于数值型数据,可以进一步将其划分为: - 整数型 - 小数型

    整数型

    在 MySQL 中,由于要考虑节省磁盘空间的问题,因此系统又将整型细分成五类,分别为:

    tinyint:迷你整型,使用 1 个字节存储数据(常用);

    smallint:小整型,使用 2 个字节存储数据;

    mediumint:中整型,使用 3 个字节存储数据;

    int:标准整型,使用 4 个字节存储数据(常用);

    bigint:大整型,使用 8 个字节存储数据。

    接下来,输入如下 SQL 语句进行测试:

    -- 创建整型表

    create table my_int(

    int_1 tinyint,

    int_2 smallint,

    int_3 int,

    int_4 bigint

    )charset utf8;

    ba1e52525a02970e61213a991c19b0e5.png

    如上图所示,咱们已经成功创建my_int表,再插入数据:

    -- 插入数据

    insert into my_int values (1,2,3,4);

    insert into my_int values ('a','b','c','d');

    insert into my_int values (255,2,3,4);

    b4ac1106ad0edf09e51d39c3cf6ee3de.png

    如上图所示,通过列类型,咱们可以限定插入数据的类型以及长度范围。

    至于为什么在对int_1赋值时,报出超出范围的错误,则是因为在 SQL 中数值类型默认是有符号位的,即分正负,这种情况下,tinyint的取值范围是: -128到127。

    如果需要使用无符号的数据,这就需要咱们自己对数据类型进行声明啦,即在声明数据类型时,追加unsigned关键字。例如:

    -- 在 my_int 表中,添加 int_5 字段,设置其数据类型为 tinyint unsigned

    alter table my_int add int_5 tinyint unsigned;

    02dfe0af213e452e7152584b50b229bc.png

    如上图所示,添加int_5字段成功,继续插入数据:

    -- 插入数据

    insert into my_int values (1,2,3,4,255);

    a4875083749ba5785d377ff8bdb19e29.png

    如上图所示,当咱们将tinyint限定为unsigned之后,已经可以插入0~255之间的任何整数啦!但是,回过头来,让咱们仔细看看下面这张图:

    68da28cacc60b655c70ef6fdffab422a.png

    通过观察上面这张图,咱们会发现: 每个字段的数据类型后面都会跟着一对括号,并且里面含有数字。这些数字啊,其实并没有什么特别的含义,只是表示数据的显示宽度。实际上,咱们可以修改显示的宽度,但是这种修改并不会改变数据本身的大小。

    显示宽度的意义:在于当数据不够显示宽度的时候,会自动让数据变成对应的显示宽度,通常需要搭配一个前导0来增加宽度,其不改变数据值的大小,即用zerofill进行零填充,并且零填充会导致数值自动变成无符号。

    下面,执行如下 SQL 语句:

    -- 在 my_int 表中,添加 int_6 字段,设置其数据类型为 tinyint zerofill

    alter table my_int add int_6(3) tinyint zerofill;

    913de85d236eb8d8cc0bd28ee80aaa11.png

    再插入数据,进行测试:

    -- 插入数据

    insert into my_int values (1,2,3,4,5,6);

    ed6cad27f75b67204d54152f46b56718.png

    如上图所示, 零填充的意义:在于保证数据的格式。

    小数型

    小数型,即 带有小数点或者范围超出整型的数值类型。

    在 SQL 中,将小数型细分为 浮点型和 定点型两种,其中:

    浮点型:小数点浮动,精度有限,容易丢失精度;

    定点型:小数点固定,精度固定,不会丢失精度。

    第 1 种:浮点型

    浮点型数据是一种精度型数据,因为超出指定范围之后,其会丢失精度,自动进行四舍五入操作。理论上,浮点型分为两种精度:

    float:单精度,占用 4 个字节存储数据,精度范围大概为 7 位左右;

    double:双精度,占用 8 个字节存储数据,精度范围大概为 15 位左右。

    浮点型的使用方式:

    如果直接用float,则表示没有小数部分;如果用float(M,D),其中M代表总长度,D代表小数部分长度,M-D则为整数部分长度。

    执行如下 SQL 语句创建浮点数表,进行测试:

    -- 创建浮点数表

    create table my_float(

    f1 float,

    f2 float(10,2),

    f3 float(6,2)

    )charset utf8;

    在咱们向浮点数表my_float插入数据的时候,可以直接插入小数,也可以插入用科学计数法表示的数据。此外,插入浮点型数据时,整数部分是不能超出长度范围的,但是小数部分是可以超出长度范围的,系统会自动进行四舍五入的操作。特别是,如果浮点数是因为系统进位(四舍五入)导致整数部分超出指定的长度,那么系统是允许成立的。

    -- 插入测试数据

    insert into my_float values (2.15e4,20.15,9999.99);

    insert into my_float values (20151120,123456789.99,9999.99);

    insert into my_float values (5211314,123456.99,99.99999);

    0a3847dbb3f1d584c687c384ec65e1b5.png

    如上图所示,咱们的结论得到了验证。

    第 2 种:定点型

    定点型数据,绝对的保证整数部分不会被四舍五入,也就是说不会丢失精度,但小数部分有可能丢失精度,虽然理论上小数部分也不会丢失精度。

    执行如下 SQL 语句创建定点数表,以浮点数做对比,进行测试:

    -- 创建定点数表

    create table my_decimal(

    f1 float(10,2),

    d1 decimal(10,2)

    )charset utf8;

    当咱们插入数据的时候,定点数的整数部分一定不能超出长度范围(进位也不可以),小数部分的长度则可以随意超出,没有限制,系统会自动进行四舍五入的操作:

    -- 插入测试数据

    insert into my_decimal values (99999999.99,99999999.99);

    insert into my_decimal values (123456789.99,2015.1314);

    insert into my_decimal values (123456.99,2015.1314);

    21623b003093eed15c04c8fb38925790.png

    如上图所示,咱们的结论同样得到了验证。

    展开全文
  • 对于数值型数据的大小的比较的规则: 1:如果是字符串之间的比较。逐个比较对应位置上的字符的Uncode码值。 一旦一方的字符大于或者小于了另外一方,就作为整个比较的结果,不在继续比较后续的字符。 2:如果...

    在js中,可以对任意类型使用关系运算符:> >= < <=
    进行大小的比较。

    对于非数值型的数据的大小的比较的规则:
    1:如果是字符串之间的比较。逐个比较对应位置上的字符的Uncode码值。
        一旦一方的字符大于或者小于了另外一方,就作为整个比较的结果,不在继续比较后续的字符。
    
    2:如果,参与比较的数据中有非字符串型数据,那么就将所有的数据隐式转换为Number类型,再作比较。
    
    <script>
        console.log ("a" > "1");//true
        console.log ("A" > "a");//false
        console.log ("aaa" > "aa");//true
        console.log ("abc" > "abbbbb");//true
    
        console.log ("-------------")
        console.log ("a" > 1);//false
        console.log (true > 1);//false
        console.log (null >= "0");//true
        console.log (undefined <= false);//false
        console.log ("  123" > NaN);//false
        console.log (NaN >= NaN);//false
        console.log (null >= undefined);//false
    </script>
    展开全文
  • DB2数值型数据类型简介

    千次阅读 2013-03-20 20:18:45
    DB2数值型数据 所有的数值都有符号,精度(p),和小数位数(s)。 精度是所包含数值的个数,包括小数,如表的列定义为col dicimal(9,2),那么此列能够存放的做大数据为9999999.99。   下面是51CTO网站上对于...
  • categorical or nominal attribute:是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来描述的。例如: (1)人口按性别分为男、女两类; (2)企业按行业属性分为医药企业、...
  • 通过前面博文的介绍,对于分类有了...分类针对离散数据,而回归针对连续型数据。 回归的目的是预测数值型的目标值。h=w0x0+w1x1.....+wn*xn 这个方程就是regression equation,其中的w0,w1,,,wn被称为regressi...
  • 使用R并行方式对数值型数据离散化

    千次阅读 2016-08-21 22:51:57
    使用R并行方式对数值型数据离散化 数据的特征按照其取值可以分为连续型和离散型。离散数值属性在数据挖掘的过程中具有重要的作用。比如在信用卡评分模型中,当自变量很多时,并非所有字段对于目标字段来说都是有效...
  • 这里我们介绍回归的问题。回归和之前介绍的分类,本质上是一样的,都是针对一个输入做出一个输出预测,其区别在于输出变量的类型。 输入变量与输出变量均为连续变量的预测问题是回归问题 ...那么对于给定的数据x1...
  • 因为有符号数还能表示负数,这就需要有一个数据位来表示数据的正负,所以无符号数是相对于有符号数而言的,指的是整个机器字长的全部二进制位均表示数值位,相当于数的绝对值。由于无符号数和有符...
  • 1 用线性回归找到最佳拟合直线 线性回归 优点:结果易于理解,计算上不复杂。... 适用数据类型:数值型和标称型数据。   假定输入数据存放在矩阵XXX中,而回归系数存放在向量www中。那么对于给定的数...
  • 本篇文章主要给大家介绍mysql中列类型之数值型的相关知识点,希望对需要的朋友有所帮助!推荐参考教程:《mysql教程》列类型(数据类型)所谓的列类型,...对于数值型数据,可以进一步将其划分为整数型和小数型。整...
  • 第八章 预测数值型数据:回归 8.1 用线性回归找到最佳拟合曲线 假设输入数据存放在矩阵X中,而回归系数存放在向量w中,那么对于给定的数据X1,预测结果将会通过Y1=X1.T×w给出。如何找出误差最小的W,一般采用...
  • import numpy from bs4 import BeautifulSoup import matplotlib.pyplot as plt from time import sleep import json def loadDataSet(fileName): # general function to parse tab -delimited floats... # 对于每一...
  • 对于我,有时候我也无法说清,虽然我感觉我已经弄懂了,但是这里还是说一说自己的理解。首先,我们学过一本书《随机过程》,这里面讲到了马尔科夫链等,这是一种在时间、位置等有序列属性的数据,也就是说,这些说句...
  • 假设输入数据存放在矩阵X中,而回归系数存放在向量w中,那么对于给定的数据X1,预测结果将会通过Y1=X1.T×w给出。如何找出误差最小的W,一般采用平方误差最小,即最小二乘法。平方误差可以写做: 用...
  • 前面所学习的基本都是分类问题,分类问题的目标变量是标称型数据,或者离散型数据。而回归的目标变量为连续型,也即是回归对连续型变量做出预测,最直接的办法是依据输入写出一个目标值的计算公式,这样,对于给定的...
  • 一、引言二、线性回归算法2.1 算法介绍目的:预测数值型的目标值得到求取目标值的回归方程、回归系数求这些回归系数w的过程称为回归数据存放在矩阵X,回归系数存放在向量W中对于给定的输入数据X’,预测结果如何确定...
  • 一般机器学习数据预处理过程中,对于数值型特征编码可以采用如下几种方式: 1、one-hot编码(独热编码) 2、映射有序特征 one-hot编码(独热编码): 如果该特征下可以分为多个类别,且各类别是并列关系,则...
  • 测试程序如下:#include int main() { float a,b,c; a=12345.67890; b=987.65432; c=a+b; printf("%12.5f\n",c); return 0; } 计算结果为:  分析: ... 对于浮点型数据,除了表示
  • 1、局部加权线性回归: 就是给样本集X中样本点x一个权重系数,常用的就是高斯...2、对于特征比样本点还多的情况怎么处理: 通过缩减系数来“理解”数据: a)岭回归缩减法; b)lasso缩减法; c)前向逐步回归缩减法。
  • 特征工程非常重要,比赛能不能上分,除了之前说的EDA很重要外,最重要的还是特征工程,毕竟EDA也是为了更深入理解...一、预处理对于数值型特征的处理还跟选择的模型有关,如基于树的模型(决策树,随机森林等)和...
  • 列类型(数据类型) 所谓的列类型,其实就是指数据...对于数值型数据,可以进一步将其划分为整数型和小数型。 整数型 在 SQL 中,由于要考虑节省磁盘空间的问题,因此系统又将整型细分成五类,分别为:tinyint...
  • 对于一个机器学习问题,数据和特征往往决定了结果的上限,而模型,算法只是逐步接近这个上限。 所谓特征工程,就是对最原始的数据(数字,文本,图像等)进行一系列的处理,将其提炼为特征,作为输入供算法和模型...
  • 列类型(数据类型)所谓的列类型,其实... 对于数值型数据,可以进一步将其划分为整数型和小数型。整数型在 SQL 中,由于要考虑节省磁盘空间的问题,因此系统又将整型细分成五类,分别为:tinyint:迷你整型,使用 ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,153
精华内容 461
关键字:

对于数值型数据