精华内容
下载资源
问答
  • 数据库索引-建立索引的判断标准

    千次阅读 2016-05-26 07:43:54
    索引虽然能加快查询速度,但是也带来了一定的缺点。...有种情况不建议建立索引: 1.表的记录太少,一般以5000条为界限。对5000条记录以下的数据表建立索引还不如进行全表扫描。 2.索引的选择性比较低:  

    索引虽然能加快查询速度,但是也带来了一定的缺点。因为索引虽然加快了查询速度,但是索引也是有代价的:索引本身会消耗内存空间,同时在对数据库进行增删改查的时候,也需要维护索引。

    因此索引并不是越多越好,需要因地制宜。

    有两种情况不建议建立索引:

    1.表的记录太少,一般以5000条为界限。对5000条记录以下的数据表建立索引还不如进行全表扫描。

    2.索引的选择性比较低:

        所谓选择性:是指不重复的索引值与表记录数的比值

        选择性=不重复的索引值/表的记录数

        选择性越高的索引价值越大,这是由B+Tree的性质决定的。一般以0.8为界



    经验:

        如果索引包含的字段长度过大,也会降低索引的速度,比如last_name这样一列的长度可能很大,我们就可以在left(last_name,4)上建立索引

        如下:请读者自己对比两个索引选择性的值大小

        select count(distinct(contact(first_name,left(last_name,3))))/count(*) as seleccivity from employees;

        select count(distinct(contact(first_name,left(last_name,4))))/count(*) as seleccivity from employees;

    展开全文
  • Shell if 条件判断

    万次阅读 多人点赞 2018-05-21 22:39:14
    then 符合该条件执行的语句else 符合该条件执行的语句fi二、文件/文件夹(目录)判断[ -b FILE ] 如果 FILE 存在且是一块特殊文件则为真。[ -c FILE ] 如果 FILE 存在且是一字特殊文件则为真。[ -d D...

    Shell  语言中的if条件

    一、if的基本语法:
    if [ command ];then
       符合该条件执行的语句
    elif [ command ];then
       符合该条件执行的语句
    else
       符合该条件执行的语句
    fi
    二、文件/文件夹(目录)判断
    [ -b FILE ] 如果 FILE 存在且是一个块特殊文件则为真。
    [ -c FILE ] 如果 FILE 存在且是一个字特殊文件则为真。
    [ -d DIR ] 如果 FILE 存在且是一个目录则为真。
    [ -e FILE ] 如果 FILE 存在则为真。
    [ -f FILE ] 如果 FILE 存在且是一个普通文件则为真。
    [ -g FILE ] 如果 FILE 存在且已经设置了SGID则为真。
    [ -k FILE ] 如果 FILE 存在且已经设置了粘制位则为真。
    [ -p FILE ] 如果 FILE 存在且是一个名字管道(F如果O)则为真。
    [ -r FILE ] 如果 FILE 存在且是可读的则为真。
    [ -s FILE ] 如果 FILE 存在且大小不为0则为真。
    [ -t FD ] 如果文件描述符 FD 打开且指向一个终端则为真。
    [ -u FILE ] 如果 FILE 存在且设置了SUID (set user ID)则为真。
    [ -w FILE ] 如果 FILE存在且是可写的则为真。
    [ -x FILE ] 如果 FILE 存在且是可执行的则为真。
    [ -O FILE ] 如果 FILE 存在且属有效用户ID则为真。
    [ -G FILE ] 如果 FILE 存在且属有效用户组则为真。
    [ -L FILE ] 如果 FILE 存在且是一个符号连接则为真。
    [ -N FILE ] 如果 FILE 存在 and has been mod如果ied since it was last read则为真。
    [ -S FILE ] 如果 FILE 存在且是一个套接字则为真。
    [ FILE1 -nt FILE2 ] 如果 FILE1 has been changed more recently than FILE2, or 如果 FILE1 exists and FILE2 does not则为真。
    [ FILE1 -ot FILE2 ] 如果 FILE1 比 FILE2 要老, 或者 FILE2 存在且 FILE1 不存在则为真。
    [ FILE1 -ef FILE2 ] 如果 FILE1 和 FILE2 指向相同的设备和节点号则为真。


    三、字符串判断
    [ -z STRING ] 如果STRING的长度为零则为真 ,即判断是否为空,空即是真;
    [ -n STRING ] 如果STRING的长度非零则为真 ,即判断是否为非空,非空即是真;
    [ STRING1 = STRING2 ] 如果两个字符串相同则为真 ;
    [ STRING1 != STRING2 ] 如果字符串不相同则为真 ;
    [ STRING1 ]  如果字符串不为空则为真,与-n类似

    四、数值判断
    INT1 -eq INT2           INT1和INT2两数相等为真 ,=
    INT1 -ne INT2           INT1和INT2两数不等为真 ,<>
    INT1 -gt INT2            INT1大于INT1为真 ,>
    INT1 -ge INT2           INT1大于等于INT2为真,>=
    INT1 -lt INT2             INT1小于INT2为真 ,<</div>
    INT1 -le INT2             INT1小于等于INT2为真,<=
    五、复杂逻辑判断
    -a 与
    -o 或
    ! 非

    exp1: 如果a>b且a
    if (( a > b )) && (( a < c ))
    或者
    if [[ $a > $b ]] && [[ $a < $c ]]
    或者
    if [ $a -gt $b -a $a -lt $c ]

    exp2:如果a>b或a
    if (( a > b )) || (( a < c ))
    或者
    if [[ $a > $b ]] || [[ $a < $c ]]
    或者
    if [ $a -gt $b -o $a -lt $c ]
     
    "||"和"&&"在SHELL里可以用,也就是第一个写成if [ a>b && a

    六、举例
    6.1
    if利用read传参判断
    exp2:查看分数
    #!/bin/bash
    #echo -n "please input your score:"
    #read score
    #echo "input score is $ score "
    read -p "please input a score:" score
    echo -e "your score [$score] is judging by sys now"
    if [ "$score" -ge "0" ]&&[ "$score" -lt "60" ];then
            echo "sorry,you are lost!"
    elif [ "$score" -ge "60" ]&&[ "$score" -lt "85" ];then
            echo "just soso!"
    elif [ "$score" -le "100" ]&&[ "$score" -ge "85" ];then
            echo "good job!"
    else
            echo "input score is wrong , the range is [0-100]!"
    fi

    上面是if条件的使用,

    ------------------------

    下面是

    shell if [[ ]]和[ ]区别 || &&

     

    • []和test

    两者是一样的,在命令行里test expr和[ expr ]的效果相同。

    test的三个基本作用是判断文件、判断字符串、判断整数。支持使用 ”与或非“ 将表达式连接起来。

    test中可用的比较运算符只有==和!=,两者都是用于字符串比较的,不可用于整数比较,整数比较只能使用-eq, -gt这种形式。

    无论是字符串比较还是整数比较都千万不要使用大于号小于号。当然,如果你实在想用也是可以的,对于字符串比较可以使用尖括号的转义形式, 如果比较"ab"和"bc":[ ab \< bc ],结果为真,也就是返回状态为0.

    • [[ ]]

    这是内置在shell中的一个命令,它就比刚才说的test强大的多了。支持字符串的模式匹配(使用=~操作符时甚至支持shell的正则表达 式)。逻辑组合可以不使用test的-a,-o而使用&& ||。
    字符串比较时可以把右边的作为一个模式(这是右边的字符串不加双引号的情况下。如果右边的字符串加了双引号,则认为是一个文本字符串。),而不仅仅是一个字符串,比如[[ hello == hell? ]],结果为真。

      注意:使用[]和[[]]的时候不要吝啬空格,每一项两边都要有空格,[[ 1 == 2 ]]的结果为“假”,但[[ 1==2 ]]的结果为“真”!

    • let和(())

    两者也是一样的(或者说基本上是一样的,双括号比let稍弱一些)。主要进行算术运算(上面的两个都不行),也比较适合进 行整数比较,可以直接使用熟悉的<,>等比较运算符。可以直接使用变量名如var而不需要$var这样的形式。支持分号隔开的多个表达式

    ####################################################################################################################################

    1. 首先,尽管很相似,但是从概念上讲,二者是不同层次的东西。
    "[[",是关键字,许多shell(如ash bsh)并不支持这种方式。ksh, bash(据说从2.02起引入对[[的支持)等支持。
    "["是一条命令, 与test等价,大多数shell都支持。在现代的大多数sh实现中,"["与"test"是内部(builtin)命令,换句话说执行"test"/"["时不会调用/some/path/to/test这样的外部命令(如果有这样的命令的话)。


    2.[[]]结构比Bash版本的[]更通用。在[[和]]之间的所有的字符都不会被文件扩展或是标记分割,但是会有参数引用和命令替换。

    用[[ ... ]]测试结构比用[ ... ]更能防止脚本里的许多逻辑错误。比如说,&&,||,<和>操作符能在一个[[]]测试里通过,但在[]结构会发生错误。

    3.(( ))结构扩展并计算一个算术表达式的值。如果表达式值为0,会返回1或假作为退出状态码。一个非零值的表达式返回一个0或真作为退出状态码。这个结构和先前test命令及[]结构的讨论刚好相反。

    4.[ ... ]为shell命令,所以在其中的表达式应是它的命令行参数,所以串比较操作符">" 与"<"必须转义,否则就变成IO改向操作符了(请参看上面2中的例子)。在[[中"<"与">"不需转义;
    由于"[["是关键字,不会做命令行扩展,因而相对的语法就稍严格些。例如
    在[ ... ]中可以用引号括起操作符,因为在做命令行扩展时会去掉这些引号,而在[[ ... ]]则不允许这样做。

    5.[[ ... ]]进行算术扩展,而[ ... ]不做

    6.[[ ... && ... && ...  ]] 和 [ ... -a ... -a ...] 不一样,[[ ]] 是逻辑短路操作,而 [ ] 不会进行逻辑短路

     

    1)在ksh中的test
    数字的运算可使用let、(( )) ,其中运算时不需要变量$符号,运算符为 +、-、*、/、% ,不建议使用expr
    数字的比较使用 (( )) ,其运算符 >、>=、<、<=、==、!=
    可以使用算术扩展,如:(( 99+1 <= 101 ))
    字符表达式的比较使用 [[ ]] ,其运算符 =、!=、-n、-z
    文件表达式的测试使用 [[ ]] ,其运算符 -r、-l、-w、-x、-f、-d、-s、-nt、-ot
    逻辑表达式的测试使用 [[ ]] ,其运算符 !、&&、||
    数字比较、字符比较、逻辑测试可以组合,如$ [[ "a" != "b" && 4 -gt 3 ]]
    支持bash中的通配符扩展,如:[[ hest = h??t ]] 、[ hest = h*t ]]
    使用 (( )) 时,不需要空格分隔各值和运算符,使用 [[ ]] 时需要用空格分隔各值和运算符。

    2)bash与ksh中的 [[ ]] 不同
    在redhat9的bash中也可以使用 [[ ]] 符号。但是建议严格按照上面的原则使用。
    在bash中,数字的比较最好使用 (( )),虽说可以使用 [[ ]],但若在其内使用运算符 >、>=、<、<=、==、!= 时,其结果经常是错误的,不过若在 [[ ]] 中使用 [ ] 中的运算符“-eq、-ne、-le、-lt、-gt、-ge”等,还尚未发现有错。因此诸如$ [[ " a" != “b” && 4 > 3 ]] 这类组合(见上)也不可以在bash中使用,其出错率很高。
    例:[[ "a" != "b" && 10 > 2 ]] 判断结果就不正常。
    诸如 [ 2 \< 10 ]、[[ 2 < 10 ]] 都是不要使用。使用算术扩展最好用 (( 99+1 == 100 )) ,而不要使用[[ 99+1 -eq 100 ]] 。


    ####################################################################################################################################_______25341105520627

    ####################################################################################################################################

    运算符描述示例
    文件比较运算符
    -e filename如果 filename 存在,则为真[ -e /var/log/syslog ]
    -d filename如果 filename 为目录,则为真[ -d /tmp/mydir ]
    -f filename如果 filename 为常规文件,则为真[ -f /usr/bin/grep ]
    -L filename如果 filename 为符号链接,则为真[ -L /usr/bin/grep ]
    -r filename如果 filename 可读,则为真[ -r /var/log/syslog ]
    -w filename如果 filename 可写,则为真[ -w /var/mytmp.txt ]
    -x filename如果 filename 可执行,则为真[ -L /usr/bin/grep ]
    filename1 -nt filename2如果 filename1 比 filename2 新,则为真[ /tmp/install/etc/services -nt /etc/services ]
    filename1 -ot filename2如果 filename1 比 filename2 旧,则为真[ /boot/bzImage -ot arch/i386/boot/bzImage ]
    字符串比较运算符 (请注意引号的使用,这是防止空格扰乱代码的好方法)
    -z string如果 string 长度为零,则为真[ -z "$myvar" ]
    -n string如果 string 长度非零,则为真[ -n "$myvar" ]
    string1 = string2如果 string1 与 string2 相同,则为真[ "$myvar" = "one two three" ]
    string1 != string2如果 string1 与 string2 不同,则为真[ "$myvar" != "one two three" ]
    算术比较运算符
    num1 -eq num2等于[ 3 -eq $mynum ]
    num1 -ne num2不等于[ 3 -ne $mynum ]
    num1 -lt num2小于[ 3 -lt $mynum ]
    num1 -le num2小于或等于[ 3 -le $mynum ]
    num1 -gt num2大于[ 3 -gt $mynum ]
    num1 -ge num2大于或等于[ 3 -ge $mynum ]

     

    测试命令

      test命令用于检查某个条件是否成立,它可以进行数值、字符和文件3个方面的测试,其测试符和相应的功能分别如下。

      (1)数值测试:

      -eq 等于则为真。

      -ne 不等于则为真。

      -gt 大于则为真。

      -ge 大于等于则为真。

      -lt 小于则为真。

      -le 小于等于则为真。

      (2)字串测试:

      = 等于则为真。

      != 不相等则为真。

      -z字串 字串长度伪则为真。

      -n字串 字串长度不伪则为真。

      (3)文件测试:

      -e文件名 如果文件存在则为真。

      -r文件名 如果文件存在且可读则为真。

      -w文件名 如果文件存在且可写则为真。

      -x文件名 如果文件存在且可执行则为真。

      -s文件名 如果文件存在且至少有一个字符则为真。

      -d文件名 如果文件存在且为目录则为真。

      -f文件名 如果文件存在且为普通文件则为真。

      -c文件名 如果文件存在且为字符型特殊文件则为真。

      -b文件名 如果文件存在且为块特殊文件则为真



    条件变量替换: 
       Bash Shell可以进行变量的条件替换,既只有某种条件发生时才进行替换,替换 
    条件放在{}中. 
    (1) ${value:-word} 

           当变量未定义或者值为空时,返回值为word的内容,否则返回变量的值. 

    (2) ${value:=word} 

           与前者类似,只是若变量未定义或者值为空时,在返回word的值的同时将 

           word赋值给value 

    (3) ${value:?message} 

           若变量以赋值的话,正常替换.否则将消息message送到标准错误输出(若 

           此替换出现在Shell程序中,那么该程序将终止运行) 

    (4) ${value:+word} 

           若变量以赋值的话,其值才用word替换,否则不进行任何替换 

    (5) ${value:offset} 
           ${value:offset:length} 
           从变量中提取子串,这里offset和length可以是算术表达式. 

    (6) ${#value} 

           变量的字符个数 

    (7) ${value#pattern} 
           ${value##pattern} 
           去掉value中与pattern相匹配的部分,条件是value的开头与pattern相匹配 
           #与##的区别在于一个是最短匹配模式,一个是最长匹配模式. 

    (8) ${value%pattern} 

           ${value%%pattern} 
           于(7)类似,只是是从value的尾部于pattern相匹配,%与%%的区别与#与##一样 

    (9) ${value/pattern/string} 

           ${value//pattern/string} 
           进行变量内容的替换,把与pattern匹配的部分替换为string的内容,/与//的区别与上同 

    注意: 上述条件变量替换中,除(2)外,其余均不影响变量本身的值 


    #!/bin/bash

    var1="1"
    var2="2"

    下面是并且的运算符-a,另外注意,用一个test命令就可以了,还有if条件后面的分号

    if test $var1 = "1"-a $var2 = "2" ; then
       echo "equal"
    fi

    下面是或运算符 -o,有一个为真就可以

    if test $var1 != "1" -o $var2 != "3" ; then
       echo "not equal"
    fi

    下面是非运算符 !
    if条件是为真的时候执行,如果使用!运算符,那么原表达式必须为false

    if ! test $var1 != "1"; then
       echo "not 1"
    fi


    以上三个if都为真,所以三个echo都会打印

    在一个文档把这几个运算法说的一塌糊涂,于是自己动手实验了一下

    ------------------------------------------------------------------------------------------------------

     

    shell字符串比较、判断是否为数字
     

    二元比较操作符,比较变量或者比较数字.注意数字与字符串的区别.

    整数比较

    -eq       等于,如:if [ "$a" -eq "$b" ]
    -ne       不等于,如:if [ "$a" -ne "$b" ]
    -gt       大于,如:if [ "$a" -gt "$b" ]
    -ge       大于等于,如:if [ "$a" -ge "$b" ]
    -lt       小于,如:if [ "$a" -lt "$b" ]
    -le       小于等于,如:if [ "$a" -le "$b" ]
    <       小于(需要双括号),如:(("$a" < "$b"))
    <=       小于等于(需要双括号),如:(("$a" <= "$b"))
    >       大于(需要双括号),如:(("$a" > "$b"))
    >=       大于等于(需要双括号),如:(("$a" >= "$b"))

    字符串比较
    =       等于,如:if [ "$a" = "$b" ]
    ==       等于,如:if [ "$a" == "$b" ],与=等价
           注意:==的功能在[[]]和[]中的行为是不同的,如下:
           1 [[ $a == z* ]]    # 如果$a以"z"开头(模式匹配)那么将为true
           2 [[ $a == "z*" ]] # 如果$a等于z*(字符匹配),那么结果为true
           3
           4 [ $a == z* ]      # File globbing 和word splitting将会发生
           5 [ "$a" == "z*" ] # 如果$a等于z*(字符匹配),那么结果为true
           一点解释,关于File globbing是一种关于文件的速记法,比如"*.c"就是,再如~也是.
           但是file globbing并不是严格的正则表达式,虽然绝大多数情况下结构比较像.
    !=       不等于,如:if [ "$a" != "$b" ]
           这个操作符将在[[]]结构中使用模式匹配.
    <       小于,在ASCII字母顺序下.如:
           if [[ "$a" < "$b" ]]
           if [ "$a" \< "$b" ]
           注意:在[]结构中"<"需要被转义.
    >       大于,在ASCII字母顺序下.如:
           if [[ "$a" > "$b" ]]
           if [ "$a" \> "$b" ]
           注意:在[]结构中">"需要被转义.
           具体参考Example 26-11来查看这个操作符应用的例子.
    -z       字符串为"null".就是长度为0.
    -n       字符串不为"null"
           注意:
           使用-n在[]结构中测试必须要用""把变量引起来.使用一个未被""的字符串来使用! -z
           或者就是未用""引用的字符串本身,放到[]结构中。虽然一般情况下可
           以工作,但这是不安全的.习惯于使用""来测试字符串是一种好习惯.

    文章出处:http://www.cnblogs.com/aaron-agu/ 只有毅力和决心才能使人真正具有价值!


    展开全文
  • 比如你觉得前列腺特异性抗原(PSA)用来筛查前列腺癌不准确,你收集临床样本做了癌和癌旁组织的lncRNA检测,筛选出差异表达的,建立回归模型,看它们对前列腺癌的预测作用,再做ROC曲线,哎哟,AUC > 0.75,太棒...

    有一类研究看似简单,其实水挺深的。

    比如你觉得前列腺特异性抗原(PSA)用来筛查前列腺癌不准确,你收集临床样本做了个癌和癌旁组织的lncRNA检测,筛选出差异表达的,建立回归模型,看它们对前列腺癌的预测作用,再做个ROC曲线,哎哟,AUC > 0.75,太棒了3-5分在握!

    但是转眼看别人好像也差不多嘛,对某现有诊断或风险预测方法不满意,根据既往零散报道的风险因素收集一些临床资料,建立回归模型然后ROC一下,为什么人家能冲上四大医刊,甚至被迫不及待写进指南呢?仅仅因为人家有N个中心上万个样本量吗?不,你肯定没在意另一些分析方法。

    人家的诊断(预测)模型好,你的可能也不赖,但人家把它的好处说得很清楚、很有技术范呀,编辑和审稿人就喜欢这样。

    评价一个模型的好坏,不仅关乎能发多少分的文章,也关乎临床医生的决策。近期JAMA上的一篇文章专门讨论了这个问题,我们一起来琢磨一下。

    模型的区分度和校准度

    一个好的预测模型应该能针对某个结局,把一群人的风险高低区分开来,这就是区分度(discrimination)。它跟患者在人群中的分布特征有关,模型中纳入的自变量(如性别、年龄、某些实验室检查等)如果有异质性,那么模型的区分度就好,否则就差。

    区分度一般以我们熟悉的ROC曲线下面积(AUC)来评价,或称C统计量(C-statistics)。AUC越高,模型对高低风险人群的区分度越好。一个广泛接受的评判标准是,AUC在0.6以下为低区分度,0.6 – 0.75 是中区分度,0.75以上为高区分度。

    但一个区分度很好的模型,却可能有着较差的校准度(calibration),或称拟合优度(Goodness of fit)。比如它能判断一个人发生某疾病的风险是另一个人的5倍,它判断这两人的风险分别为5%和1%,而实际上两人的风险是50%和10%,那这个模型也挺离谱的,这就是校准度不好。

    模型的校准度可以用Hosmer-Lemeshow检验(H-L检验),若结果得到显著统计学意义,则表明预测值与观测值之间(即模型和真实之间)有差异。

    但H-L检验有其不足。有统计学差异只能提示这个模型整体上跟观测值有差异,却无法展示更多细节。做出校准曲线来有可能会看到这样一种情况:

    这是MAGGIC心衰风险评分量表的校准曲线,其用于评价心衰1年死亡风险。黄色曲线为模型预测值,蓝色带有误差线的点为观测值。可见它们前面一段低风险时吻合得不错,而有轻微高估;但30%开始,模型预测的风险低于实际观察值10%左右,自此拉开差距。

    这个模型在外部验证集中检测的时候,AUC为0.77。像这种情况的模型是否毫无用处呢?

    如果有其他研究表明(或行业内达成共识),风险高于20%的时候就一定要采取某种干预,那么后面的差异其实影响不大,这都是可以在讨论中Argue一下的,深入分析自己的模型的价值和适用范围,也可圈可点。

    区分度和校准度对一个模型来说都是很重要的评价,许多新开发的模型没有得到充分的评价,就只好流散于苍茫文献海,泯然一滴水,后人遇到了还要辛苦甄别。有一项关于心血管系统风险预测模型研究的系统综述发现,只有63%的模型汇报了区分度,而汇报校准度的更少,才36%。

    你的模型要和别人的模型来一场PK

    如果你开发的风险预测模型是为了解决一个全新的问题,展示自己好也就够了。但更多时候是希望能改进现有的解决方案,那么当然还要表明它比现有的好(至少某一方面),才能有发表的机会呀。

    区分度比较两者的AUC是可以的,但没什么细节。校准度的比较则可用赤池信息准则(Akaike Index Criterion, AIC)或贝叶斯信息准则(Bayesian Index Criterion, BIC),其值越低,校准度越好,但同样没什么细节,可能相对较好的那个模型离真实情况还是挺远的。但AIC和BIC见得更少了。

    这里再重点介绍一种近年来应用愈发增多的指标,听说有的小伙伴已经遇到过审稿人要求返修做这个分析了,就是净重新分类指数(Net Reclassification Index, NRI)

    听名字,这意思就是旧模型把一群人分为高风险和低风险,新模型会把其中几个人挪挪窝,有的挪对了有的挪错了,“挪对的 – 挪错的”就是净重分类。指数嘛,再除以总人数的百分比咯。

    但还要分成两拨来看,即观测发生结局事件的和未发生结局事件的,因为它们分别代表假阴性和假阳性的概率。还是在一个情景中说明吧。

    相加NRI(additive NRI)的值可以从200 ~ -200,即新模型完全分类正确(所有低风险的人都未发生结局事件,且所有高风险的人都发生了结局事件)为200,反之完全分类错误为-200。

    它主要的局限性就是没有考虑发生与不发生事件的两拨人在总体中的分布情况。绝对NRI(absolute NRI)以总体为分母,则回避了这个局限。

    相加NRI用得多一点,但其实它们各有意义,应该兼看。再看两个例子来理解它俩的差别吧。

    例1: 样本20000人,观察下来,发生与未发生结局事件的两拨人各有10000。下图绿色表示正确重新分类,粉色表示错误重新分类,灰色表示没有重新分类。

    计算下来,相加NRI为12,是正值;绝对NRI是6%,也是正值,如图下方的表格所示。也就是说,虽然未发生结局事件的有300人被错误重新分类,但总体上来说还是利大于弊的。

    例2:样本是11000人,观察下来,发生与未发生结局事件的人比例不再是1:1了,分别为1000人与10000人。

    如表所示,这回相加NRI和上边一样是12,还是正值。如果光看相加NRI,似乎新模型还是个好模型。但看绝对NRI,原来是个负值。

    再看看细节,新模型对发生了结局事件的人做了更好的重分类,可遗憾的是,这拨人所占比例更小;而对于未发生结局事件的人,其重分类效果并不好,这部分人占的比例又比较大,最终绝对NRI是负的,暴露了新模型的局限性。

    下面是一个研究中的真实案例,情况跟上边的例2差不多。评价术后发生心梗或心源性死亡的风险,原来有一个评分量表(Revised Cardiac Risk Index, RCRI),此为旧模型。研究者想看看加上冠脉造影(CCTA)能不能更好地预测风险,即CCTA + RCRI为新模型。

    观察下来,结局发生与不发生在总体中的分布为7.7% : 92.3%,统计重新分类的情况,计算两个NRI,出现了相加NRI为正值、绝对NRI为负值的情况。

    发生这种情况,又要拋弃新模型咯?粗看或许的是,但其实还有另一个讨论思路,这个思路在许多研究中都适用,就是假阴性与假阳性哪个后果更严重。

    发生结局事件的人,当初被错误地分到低风险组,就是假阴性,让病人和医生都放松警惕,可能错过了及时干预的机会。未发生结局事件的人,当初被错误地分到高风险组,就是假阳性,让人提心吊胆草木皆兵,可能过度干预造成额外的负担。

    如果结局事件挺严重的,比如本例中的心梗或心源性死亡,就算风险低我也想要极力避免,要干预,那么假阳性较多的模型也有其价值。如果结局事件不那么严重,或者即使发生了还有较好的补救方案,那么当初测试时它低估了我的风险我也不是太介意,假阴性多一点的模型也能接受。

    总之,如果你的分析方法能看到更多细节,也就给了你更多更深入分析讨论的机会,为自己的研究成果找到亮点。

    关于假阴性与假阳性的权衡,还有其他指标,比如净受益率,可以做决策曲线来分析。这个我们之前有过介绍,这里就不多说了,自己来复习→_→《ROC曲线老了,快来围观新晋小生DCA曲线!》

    参考文献:Alba, A. C. et al. Discrimination and Calibration of Clinical Prediction Models: Users’ Guides to the Medical Literature. JAMA 318, 1377–1384 (2017).

    展开全文
  • 价值观选择到重构思维模型

    千次阅读 2018-07-29 02:08:57
    维基百科的是这样定义的:价值观是一种处理事情判断对错、做选择取舍时的标准价值观有以下特点: 价值观会指引一人去从事某些行为,比如认为人的生命是神圣的人就会反对安乐死,崇尚自由选择的人就认为堕胎...

    今天,我想谈谈价值观思维模型,这可能是我们平时很少思考,但是却深刻影响着我们的行为和思想的东西,这些概念比较抽象,讲得不好请还望批评指正。

     

    1、什么是价值观?

    维基百科的是这样定义的:价值观是一种处理事情判断对错、做选择取舍时的标准。

    价值观有以下特点:

    • 价值观会指引一个人去从事某些行为,比如认为人的生命是神圣的人就会反对安乐死,崇尚自由选择的人就认为堕胎无罪;

    • 价值观具有客观存在性,不管你承不承认,价值观都存在;

    • 价值观具有主观选择性,每个人认可的价值观有对应排序,比如那句耳熟能详的“生命诚可贵,爱情价更高,若为自由故,两者皆可抛”讲的就是价值观排序;

    • 价值观具有稳定性和持久性,在特定的时间、地点、条件下,人们的价值观总是相对稳定和持久的;

    • 价值观也具有可变性,随着年龄、阅历的增长或经历过重大变故,个人的价值观也可能会发生变化;

    • 价值观具有历史性和选择性,在不同时代、不同社会生活环境中形成的价值观是不同的,比如当代青年和民国时代的青年所信仰的价值观整体上就相去甚远。

    《学会提问》这本书中列举了一些常见的价值观,让我们从中选择出一些自己认可的价值观,然后按照重要程度进行排序(在内心问自己:在A和B面临冲突时,你会选哪个?你选的那个在你看来就更重要)。

    如果国家征兵让我去殖民非洲(当然这是不可能的,非洲的兄弟不要慌:),在面临爱国还是坚持正义的抉择时,如果你选择的是正义,那就不会响应号召入伍,甚至会对这种行为强烈谴责;如果你选择的是爱国,那很有可能弃笔从戎、远走他乡。别觉得我在开玩笑,想想二战时候的日本人入侵我华,难道不正是爱国主义压过正义之心的案例吗?

    基于你选择的价值观,你的行为、观点都会受此影响,当你和某人认可的价值观相同时,你会认可他的行为、观点(想想你为什么在朋友圈转发文章);相反,当你和某人认可的价值观不同时,稍微理性可能会说,我对你的行为、观点持保留态度,性格暴躁可能会直接开撕了。

     

    2、什么是思维模型?

    这个目前还没有一个明确的定义,我理解为:思维模型就是你看待世界的方式。

    比如著名投资大师、巴菲特的好基友查理·芒格使用的就是多元思维模型,他提倡要不断学习众多学科的知识来形成一个思维模型的复式框架。

    硅谷钢铁侠马斯克是第一性原理的代表人物,而第一性原理就是找到问题最开始的起点,即“元起点”或者“元问题”,只有弄清楚了问题的根源才会做出颠覆式的创新。想想马斯克创建的一系列公司:新能源汽车公司Tesla、太空探索公司SpaceX、新能源发电公司SolarCity、地下隧道传输公司Boring、脑机融合公司Neuralink、在线支付公司PayPal,这些公司都是致力于解决人类最根本的生存问题,相较而言为马斯克带来第一桶金的PayPal反而更靠谱一些,马老师将这个思维模型运用地如此炉火纯青,作为吃瓜群众,我只想双击666。

    混沌大学的李善友,逻辑思维的罗振宇,兜售的就是思维模型(感兴趣可以去看看李教授的公开课和罗胖对上面两个思维模型的介绍)。

    「长久以来,我坚信存在某个系统——几乎所有聪明人都能掌握的系统,它比绝大多数人用的系统管用。你需要的是在你的头脑里形成一种思维模型的复式框架。有了那个系统之后,你就能逐渐提高对事物的认识。」——查理·芒格

     

    3、价值观和思维模型有什么关系?

    你在运用思维模型看待世界的过程中,不可避免的会将价值观注入其中,思维模型的输出也就是你得出的观点或结论。

    《学会提问》中关于价值观冲突举了这样一个例子:

    “我们不应该允许消遣用的药品合法化,非法的药品引起了太多的街道暴力和其他犯罪行为。”

    这段话的结论是不应该允许消遣用的药品合法化;论据是非法的药品引起了太多的街道暴力和其他犯罪行为。乍一看,该论据是可以支持结论的,但实际上除了这个显性的论据,作者还将自己的价值观假设注入了其中,也就是认为“公众安全比选择自由更重要”

    如果你认可作者的价值观假设,你就会认可他的结论;反之,你需要的对作者的结论保持警惕和怀疑,这是因为提出这个论证的人希望能引导你自己作出这个论证(优秀的作者、演说家、辩手都具备这种说服别人的能力,他们就像是魔术师,使用的各种技巧来诱导我们)。

     

    4、如何改善我们的思维模型?

    最后,来谈谈如何改善我们的思维模型,我认为好的思维模型产生的结论或观点应该是普适性的、严谨的、令人信服的,每个人在成长过程中都会形成不同的思维模型,显性反映在大脑神经元连接的复杂程度上,学过高中生物的都知道:养成习惯就是大脑神经元之间建立突触的过程,我们的大脑结构和爱因斯坦的大脑结构大相径庭,而这也是人与人之间产生差异的根源。

    运用批判性思维模型可以对其他思维模型进行改善,因此可以称批判性思维是一种”元思维模型“。维基百科上对批判性思维的定义非常抽象,大家可以理解为:不轻信、不传谣、抛弃偏见、理性思考

    查理·芒格曾说过:一个人如果掌握100个思维模型,你就可以比别人更聪明。大师们的劝戒犹在耳畔,吾辈唯有奋勇向前。

    「我们认为批判性思考是一种有目的而自律的判断,并对判断的基础就证据、概念、方法学、标准厘定、背景因素层面加以诠释、分析、评估、推理与解释……有理想批判性思考能力的人凡事习惯追根究底,认知务求全面周到,判断必出于理据,心胸保持开放,态度保有弹性,评价必求公正,能坦然面对主观偏见,判断必求谨慎,且必要时愿意重新思量,对争议点清楚了解,处理复杂事物有条不紊,收集相关资料勤奋不懈,选取标准务求合理,专注于探索问题,而且在该问题该环境许可的情况下坚持寻求最精确的结果。」——维基百科

    展开全文
  • K-means算法分析航空公司客户价值

    千次阅读 2019-03-22 10:15:18
    通过客户分群,区分无价值客户和高价值客户。企业针对不同价值的客户制订优化的个性化服务方案,采取不同营销策略,将有限营销资源集中于高价值客户,实现企业利润最大化目标。准确的客户分群结果是企业优化营销资源...
  • 航空公司客户价值分析

    千次阅读 2018-07-20 22:05:19
    准确的客户分类的结果是企业优化营销资源的重要依据,本文利用了航空公司的部分数据,利用Kmeans聚类方法,对航空公司的客户进行了分类,来识别出不同的客户群体,从来发现有用的客户,从而对不同价值的客户类别提供...
  • 前面介绍的都是一些用户的行为指标和用户细分,这里要介绍的是基于每用户行为的综合性的分析和评定,主要包括用户的忠诚度和用户的价值。“以用户为中心”的理论要求网站不断优化改善用户的体验,进而提升用户的...
  • 转载请注明出处: 转载自 Thinkgamer的CSDN博客: blog.csdn...2:需求分析:挖掘CSDN博客的价值用户 3:算法模型:PeopleRank算法 4:架构设计:从数据准备到PR算法的MR化 5:程序开发:hadoop实现PeopleRank算法
  • 数据治理系列3:数据标准管理

    万次阅读 多人点赞 2019-05-30 16:39:48
    转载请注明,作者:石秀峰,公众号:learning-bigdata(谈数据) 导读:提到“标准”二字,我们...而我们所说的数据标准却不单单是指与数据相关的标准文件,数据标准是一从业务、技术、管理三方面达成一致的规范...
  • RFM模型是衡量客户价值和客户创利能力的重要工具和手段。RFM分析模型主要由三指标组成,下面对这三指标的定义和作用做下简单解释: 1、最近一次消费(Recency) 最近一次消费意指用户上一次购买的时间,理论上,...
  • 作为一种专业性的支持角色,衡量设计师的绩效当然要看两个方面:支持的好不好、支持的过程是否专业。那具体用什么标准去评判呢? 1,首先看他是如何对待问题的 如果只是产品经理或运营提需求他就直接做,那我们...
  • 对每一项关键指标和关键指标组合建立一套规范的处理流程催生了我们新的管理制度,我们需要保证人员、设备、资源等的及时有效投入,异常处理备案,包括最后对数据监控产生的价值的有效利用,都有标准的管理制度来规范...
  • 攻击模式(Attack Pattern) ...攻击模式的一示例是“网络钓鱼”:一种常见的攻击类型,其中,攻击者向一方发送精心制作的电子邮件,目的是使他们单击链接或打开附件来分发恶意软件。攻击模式也可以更具体。...
  • 推荐系统的价值

    千次阅读 2020-04-20 18:49:53
    作者丨gongyouliu来源丨大数据与人工智能(ID: ai-big-data)推荐系统作为满足人类不确定性需求的一种有效工具,是具有极大价值的,这种价值既体现在提升用户体验上,又体现...
  • 此前两个世纪,也曾有人提起过类似的方案。但直到18世纪,钟表在陆上仍不能准确报时,制造用于海上的时间机器,更是无人挑战。哈里森是第一位声称能造出航海钟,把出发地的时间不快不慢地带到海上任何地方的人...
  • 可替代性和个人价值

    千次阅读 2016-04-11 15:23:58
    其实说白了是因为他知道离职了之后也不会找到一更好的工作。声明以下所说都是排除政治斗争、公司没钱等情况下的可替代性员工会考虑很多家公司,选择一能胜任并且待遇最好的;而公司会比较所有的面试者,选一...
  • 云计算的概念和价值

    万次阅读 多人点赞 2018-05-15 22:28:03
    云计算的概念: 云计算(cloud computing)是一种按是使用量付费的模式,这种模式是可用的、便捷的、按需的网络访问,进入可配置的计算机资源共享池...​ —————-美国国家标准与技术研究院 云计算是一种基于...
  • 企业价值观的作用

    千次阅读 2011-01-07 13:20:00
     对于任何一企业而言,只有当企业内绝大部分员工的个人价值观趋同时,整个企业的价值观才可能形成。与个人价值观主导人的行为一样,企业所信奉与推崇的价值观,是企业的日常经营与管理行为的内在依据。 ...
  • 数据挖掘之用户价值分析

    千次阅读 2015-08-26 15:47:45
    前面介绍的都是一些用户的行为指标和用户细分,这里要介绍的是基于每用户行为的综合性的分析和评定,主要包括用户的忠诚度和用户的价值。“以用户为中心”的理论要求网站不断优化改善用户的体验,进而提升用户的...
  • VaR方法(Value at Risk,简称VaR)[风险价值模型]

    万次阅读 多人点赞 2013-06-26 14:31:13
    VaR方法(Value at Risk,简称VaR),称为风险价值模型,也称受险价值方法、在险价值方法     风险价值VaR(Value at Risk)技术是目前市场上最流行、最为有效的风险管理技术。   VaR方法提出的背景  传统...
  • (1)从航空公司的数据源进行选择性的抽取与新增数据抽取分别形成历史数据和增量数据(2)对步骤(1)中形成的两个数据集进行数据探索和预处理,包括数据缺失值与异常值的探索分析,数据的属性规
  • 大数据最核心的价值是什么?

    万次阅读 2018-07-23 14:33:58
     我把大数据的核心价值理解为核心商业价值。   “很多人还没搞清楚什么是PC互联网,移动互联网来了,我们还没搞清楚移动互联的时候,大数据时代又来了。”——马云卸任演讲   本文尝试从三大产业的角度将...
  • 评价标准—ROC & AUC

    千次阅读 2018-01-23 19:22:57
    (receiver operating characteristic curve),又称感受性曲线(sensitivity curve),得此名的原因在于曲线上各点反映着相同的感受性,它们都是对同一信号刺激的反应,只不过是在几种不同的判定标准下所得的结果...
  • 风险价值法(VAR)

    千次阅读 2010-06-29 14:23:00
     风险价值法(VAR) (一)概念 VAR实际上是要回答在概率给定情况下,银行投资组合价值在下一阶段最多可能损失多少。在风险管理的各种方法中,VAR方法最为引人瞩目。尤其是在过去的几年里,许多银行和法规制定...
  • Python:航空公司客户价值分析实战

    千次阅读 热门讨论 2018-03-04 10:59:18
    一、背景及挖掘目标1、行业背景随着大数据的来临,传统的商业模式正在被一新的营销模式—“数据化营销”所替代,采取不同的营销策略,将有限的资源集中在高价值的客户上,实现企业利润的最大化目标。面对激烈的...
  • 挖掘目标借助航空公司客户数据,对客户进行分类对不同的客户类别进行特征分析,比较不同类客户的客户价值对不同价值的客户类别提供个性化服务,制定相应的营销策略详情数据见数据集内容中的air_data.csv和客户信息...
  • 航空公司客户价值分析(正版/超详细/附数据)

    千次阅读 多人点赞 2020-09-10 17:57:23
    航空公司客户价值分析 在面向客户制定运营策略、营销策略时,希望能够针对不同的客户推行不同的策略,实现精准化运营,以期获取最大的转化率。客户关系管理是精准化运营的基础,而客户关系管理的核心是客户分类。...
  • 打听别人工资的7话题,让你薪水更高

    万次阅读 多人点赞 2016-05-05 07:23:54
    你打听过同事的工资吗?你的同事问过你的工资吗?工资的本质是什么?怎样凸显自己的商业价值获取高薪?
  • 看蓝鲸标准运维如何编排一切

    千次阅读 2018-08-14 11:15:32
    它是一套基于 PaaS 的企业研发运营一体化技术解决方案,提供了一完整的研发、运维、运营的PaaS技术平台。平台提供了完善的前后台开发框架、调度引擎、公共组件等模块,帮助业务的产品和技术人员快速构建低成本、免...
  • 高效能人士的七习惯-读书笔记

    千次阅读 多人点赞 2020-10-06 17:09:03
    文章目录概述由内而外全面造就自己效能的定义习惯的定义第一部分 个人的...《高效能人士的七习惯》入选《福布斯》“有史以来最具影响力的10大管理类图书之一”,“20世纪有影响力的商业书籍”;是中国商界最经典、最

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 85,983
精华内容 34,393
关键字:

价值判断的两个标准