精华内容
下载资源
问答
  • 做数据分析时,经常会遇到需要把连续性变量转为分类... 既往专辑(点击进入) 实用统计教程 临床预测模型 统计分析批量完成 Kappa检验与ROC分析 科研软件与浏览器插件 小白变统计高手训练营 小白学R语言训练营 统计咨询

    做数据分析时,经常会遇到需要把连续性变量转为分类变量。

    一 读入数据

    读入TCGA的表达量数据,截取部分数据进行示范

    #TCGA的表达量数据#setwd()data

    7d870d9d100a681f6613d1f64ed597a5.png

    row.names=1 :读入数据的第一列作为行名check.names=FALSE:标题保持原样可以自行试一下,分别去掉这两个参数,然后比较下数据的差异

    二 批量转化

    1 ifelse转化单一列

    #将TCGA-97-7938-01A根据medain转为 高 低data1 median(data1[,"ENSG00000000003.13"]),"High","Low")data1[1:4,1:4]

    ccf41e5aad6dd3df69493de97cdeb499.png

    可以看到ENSG00000000003.13基因的表达量已经转为高 低 二分类了。

    分段阈值:还可以是均值,四分卫,10%,或者具体数值

    #按照均值分data1[,"ENSG00000000460.15"] mean(data1[,"ENSG00000000460.15"]),"High","Low")#按照75%分data1[,"ENSG00000000419.11"] quantile(data1[,"ENSG00000000419.11"],0.75),"High","Low")#按照具体数值分data1[,"ENSG00000000457.12"] 10,"High","Low")data1[1:4,1:4]

    f4431116e5427898d416378f10c5128f.png

    2 批量转化

    当列数较少时,可以按照上述方式,一个个完后分类。当太多时,需要批量完成!

    #使用apply,批量完成转化data2 = median(x), "hign", "low")})head(data2)

    6f1afff129a72e3a1b22e45df47d469b.png

    批量已完成,省时省力!

    3 for循环完成

    data3 = median(data3[,i]),"high","low")}

    3782af0671857fcea60c074e7a5ccef6.png

    实现方式很多,根据个人习惯,自取!

    既往专辑(点击进入)

    实用统计教程

    临床预测模型

    统计分析批量完成

    Kappa检验与ROC分析

    科研软件与浏览器插件

    小白变统计高手训练营

    小白学R语言训练营

    统计咨询

    展开全文
  • 预测分析:R语言实现

    千次阅读 2020-12-24 13:57:06
    预测分析:R语言实现作者:(希)鲁伊·米格尔·福特(Rui Miguel Forte) 著出版日期:2016年10月文件大小:53.55M支持设备:¥40.00仅供试读适用客户端:言商书局iPad/iPhone客户端:下载 Android客户端:下载PC客户端...

    预测分析:R语言实现

    作者:(希)鲁伊·米格尔·福特(Rui Miguel Forte) 著

    出版日期:2016年10月

    文件大小:53.55M

    支持设备:

    ¥40.00仅供试读

    适用客户端:

    言商书局

    iPad/iPhone客户端:下载 Android客户端:下载PC客户端:下载更多详情:查看

    ?对图书下载、阅读卡购买有疑问:立即进入帮助中心>>

    图书简介

    目录

    本书是一本比较全面的预测建模教材,覆盖了最常见的一些技术,例如逻辑回归、神经网络、支持向量机、隐马尔可夫模型、时间序列分析、推荐系统等。本书属于Packt出版社系列图书中的Mastering级别,是有一定难度和深度的高级教程。作为一位兼具科研和产业经验的专家,作者很巧妙地把握了理论和实践之间的平衡。他的做法是,先以比较通俗的方式讲解理论背景,再通过一些实际案例的直观示范来帮助读者理解相关的理论和方法。这样就让读者既能对各种预测分析方法的理论基础有更深入的认识,又能掌握在实际工作中运用这些技术的方法。此外,作者还提供了大量的参考资料和在线资源,供学有余力的读者进一步提高。

    译者序

    前言

    第1章 准备预测建模

    1.1 模型

    1.1.1 从数据中学习

    1.1.2 模型的核心组成部分

    1.1.3 我们的第一个模型:k近邻

    1.2 模型的类型

    1.2.1 有监督、无监督、半监督和强化学习模型

    1.2.2 参数化和非参数化模型

    1.2.3 回归和分类模型

    1.2.4 实时和批处理机器学习模型

    1.3 预测建模的过程

    1.3.1 定义模型的目标

    1.3.2 收集数据

    1.3.3 选取模型

    1.3.4 数据的预处理

    1.3.5 特征工程和降维

    1.3.6 训练和评估模型

    1.3.7 重复尝试不同模型及模型的最终选择

    1.3.8 部署模型

    1.4 性能衡量指标

    1.4.1 评估回归模型

    1.4.2 评估分类模型

    1.5 小结

    第2章 线性回归

    2.1 线性回归入门

    2.2 简单线性回归

    2.3 多元线性回归

    2.3.1 预测CPU性能

    2.3.2 预测二手汽车的价格

    2.4 评估线性回归模型

    2.4.1 残差分析

    2.4.2 线性回归的显著性检验

    2.4.3 线性回归的性能衡量指标

    2.4.4 比较不同的回归模型

    2.4.5 在测试集上的性能

    2.5 线性回归的问题

    2.5.1 多重共线性

    2.5.2 离群值

    2.6 特征选择

    2.7 正则化

    2.7.1 岭回归

    2.7.2 最小绝对值收缩和选择算子

    2.7.3 在R语言里实现正则化

    2.8 小结

    第3章 逻辑回归

    3.1 利用线性回归进行分类

    3.2 逻辑回归入门

    3.2.1 广义线性模型

    3.2.2 解释逻辑回归中的系数

    3.2.3 逻辑回归的假设

    3.2.4 最大似然估计

    3.3 预测心脏病

    3.4 评估逻辑回归模型

    3.4.1 模型的偏差

    3.4.2 测试集的性能

    3.5 利用lasso进行正则化

    3.6 分类指标

    3.7 二元逻辑分类器的扩展

    3.7.1 多元逻辑回归

    3.7.2 有序逻辑回归

    3.8 小结

    第4章 神经网络

    4.1 生物神经元

    4.2 人工神经元

    4.3 随机梯度下降

    4.3.1 梯度下降和局部极小值

    4.3.2 感知器算法

    4.3.3 线性分离

    4.3.4 逻辑神经元

    4.4 多层感知器网络

    4.5 预测建筑物的能源效率

    4.6 重新进行玻璃类型预测

    4.7 预测手写数字

    4.8 小结

    第5章 支持向量机

    5.1 最大边缘分类

    5.2 支持向量分类

    5.3 核和支持向量机

    5.4 预测化学品的生物降解

    5.5 交叉验证

    5.6 预测信用评分

    5.7 用支持向量机进行多类别分类

    5.8 小结

    第6章 树形方法

    6.1 树形模型的直观印象

    6.2 训练决策树的算法

    6.2.1 分类和回归树

    6.2.2 回归模型树

    6.2.3 CART分类树

    6.2.4 C5.0

    6.3 在合成的二维数据上预测类别归属关系

    6.4 预测纸币的真实性

    6.5 预测复杂的技能学习

    6.5.1 在CART树里对模型参数进行调优

    6.5.2 树模型中的变量重要性

    6.5.3 回归模型树实用示例

    6.6 小结

    第7章 集成方法

    7.1 装袋

    7.1.1 边缘和袋外观测数据

    7.1.2 用装袋预测复杂技能学习

    7.1.3 用装袋预测心脏病

    7.1.4 装袋的局限性

    7.2 增强

    7.3 预测大气中伽马射线的辐射

    7.4 利用增强算法预测复杂技能学习

    7.5 随机森林

    7.6 小结

    第8章 概率图模型

    8.1 图论入门

    8.2 贝叶斯定理

    8.3 条件性独立

    8.4 贝叶斯网络

    8.5 朴素贝叶斯分类器

    8.6 隐马尔可夫模型

    8.7 预测启动子基因序列

    8.8 预测英语单词里的字母特征

    8.9 小结

    第9章 时间序列分析

    9.1 时间序列的基本概念

    9.2 一些基本的时间序列

    9.2.1 白噪声

    9.2.2 随机漫步

    9.3 平稳性

    9.4 平稳时间序列模型

    9.4.1 移动平均模型

    9.4.2 自回归模型

    9.4.3 自回归移动平均模型

    9.5 非平稳时间序列模型

    9.5.1 整合自回归移动平均模型

    9.5.2 自回归条件异方差模型

    9.5.3 广义自回归条件异方差模型

    9.6 预测强烈地震

    9.7 预测猞猁的诱捕

    9.8 预测外汇汇率

    9.9 其他时间序列模型

    9.10 小结

    第10章 主题建模

    10.1 主题建模概况

    10.2 隐含狄式分布

    10.2.1 狄式分布

    10.2.2 生成过程

    10.2.3 拟合LDA模型

    10.3 对在线新闻报道的主题进行建模

    10.3.1 模型稳定性

    10.3.2 找出主题数量

    10.3.3 主题分布

    10.3.4 单词分布

    10.3.5 LDA扩展模型

    10.4 小结

    第11章 推荐系统

    11.1 评分矩阵

    11.2 协同过滤

    11.2.1 基于用户的协同过滤

    11.2.2 基于商品的协同过滤

    11.3 奇异值分解

    11.4 R语言和大数据

    11.5 预测电影和笑话的推荐

    11.6 加载和预处理数据

    11.7 对数据进行探索

    11.7.1 评估二元的top-N推荐

    11.7.2 评估非二元的top-N推荐

    11.7.3 评估每种预测方法

    11.8 推荐系统的其他方法

    11.9 小结

    展开全文
  • Bootstrap方法在R语言中的运用

    千次阅读 2020-12-23 21:06:31
    Bootstrap本意是拎着靴带让自己跳起来,在统计学是一种重采样的方法,通常在样本量小的时候,可以从中不断再次抽样。 1. Bootstrap 简单应用 Bootstrap bias偏差 &variance 方差 library(bootstrap) bslogc(x,B){ ...

    Bootstrap本意是拎着靴带让自己跳起来,在统计学中是一种重采样的方法,通常在样本量小的时候,可以从中不断再次抽样。

    1. Bootstrap 简单应用

    Bootstrap bias偏差 &variance 方差

    library(bootstrap)
    bslogc<-function(x,B){
      n<-length(x)
      thetastar<-replicate(B,{xstar<-sample(x,n,replace = T)
                           median(xstar)} )
      thetastar
    }
     
    x <- diabetes$logCpeptide   
    hist(x, freq = FALSE, main = "Histogram of diabetes data")
    median(x)
    bscpep<-bslogc(x,1000)
    hist(bscpep,freq = FALSE, breaks = 7,main = "Histogram of bootstrap diabetes medians")
    var(bscpep)
    bias<-mean(bscpep)-median(x)
    

    Bootstrap correlation

    samplecorr <- function(data, B) {
      n <- nrow(data)
      res <- numeric(B)
      for(i in 1:B) {
        ind <- sample(n, n, replace = TRUE)
        bs_data <-  data[ind, ]
        res[i] <- cor(bs_data[ , 1], bs_data[ , 2])
      }
      res 
    }
    cor(law)
    cor(law[ , 1], law[ , 2])
    bs_law <- samplecorr(law, 10000)
    hist(bs_law,  freq = FALSE,
         main = "Histogram of law data bootstrap corellation coefficients")
    bias.law <- mean(bs_law) - cor.law[1, 2]
    bias.law
    var(bs_law)
    
    cor(law82)
    bs_law82 <- samplecorr(law82[ , 2:3], 10000)
    hist(bs_law82,  freq = FALSE,
         main = "Histogram of law82 data bootstrap corellation coefficients")
    bias.law82 <- mean(bs_law82) - cor.law82[1, 2]
    bias.law82
    var(bs_law82)
    
    

    Bootstrap方法比较实验组与对照组

    mean(mouse.t)-mean(mouse.c)
    bsmice<-function(x,y,B){
      n1<-length(x)
      n2<-length(y)
      thet1<-replicate(B,{xstar<-sample(x,n1,replace = T)
                           mean(xstar)})
      thet2<-replicate(B,{ystar<-sample(y,n2,replace = T)
                           mean(ystar)})
      d=thet1-thet2
      
    }
    
    df1=bsmice(mouse.t,mouse.c,1000)
    head(df1)
    pihat <- sum(df1 > 10) / length(df1) #probability that survival time difference > 10
    pihat
    

    2.Bootstrap residuals

    ebs_eps<-function(y,x,B){
      fit <- lm(y ~ x)
      e <- residuals(fit)
      y_fitted <- fitted(fit) # or : beta[1] + beta[2] * 
      x <- wood$density # for convenience
      bs_resid <- matrix(0, nrow = B, ncol = 2)
      n<-length(y)
      for(i in 1:B){
        e_star <- sample(e, n, replace = TRUE)
        y_star <- y_fitted + e_star
        fit_star <- lm(y_star ~ x)
        bs_resid[i, ] <- coef(fit_star)
      }
      bs_resid
    }
    
    wood <- read.table("wood.txt", header = TRUE)
    bs_beta <-ebs_eps(y = wood$hardness, x = wood$density, 1000)
    
    fit_wood <- lm(hardness ~ density, data = wood)
    beta <- coef(fit_wood)
    
    plot(wood$density, wood$hardness, main = "",  xlab = "density", ylab = "hardness")
    yreg <- beta[1] + beta[2] * wood$density
    lines(wood$density, yreg, col = "red")
    for(i in 1:10) {
        yest <- bs_beta[i, 1] + bs_beta[i, 2] * wood$density
        lines(wood$density, yest)
    }
    
    hist(bs_beta[, 1], xlab = "Estimate of alpha", freq = FALSE)
    hist(bs_beta[ , 2], xlab = "Estimate of beta", freq = FALSE)
    
    

    3.Bootstrap 置信区间

    s1=rgamma(50,shape = 4,rate = 1)
    hist(s1)
    n <- length(s1)
    B=10000
    zstar<-{}
    for (i in 1:B){
      xstar<- sample(s1,n,replace = T)
      ths<-mean(xstar)
      se<-sd(xstar)/sqrt(n)
      zstar[i]<- (ths-theta_hat)/se
    }
    
    tq<-quantile(zstar,c(0.05,1-0.05))
    theta_hat-c(tq[2],tq[1])*se_hat
    library(bootstrap)
    help(bootstrap)
    boott(s1,theta = function(x) mean(x),
          perc=c(.025,.05,.10,.50,.90,.95,.975))
    
    
    展开全文
  • 求水仙花数是入门编程同学的基本习题,今天使用R语言来完成这个任务。 水仙花数是三位数即从100到999寻找。其定义是 :x_100,x_10,x_1是数x的百位十位个位数.当 其满足x1003+x103+x13=xx_{100}^3 + x_{10}^3 + x_{...

    求水仙花数是入门编程同学的基本习题,今天使用R语言来完成这个任务。
    水仙花数是三位数即从100999中寻找。其定义是 :x_100,x_10,x_1是数x的百位十位个位数.当 其满足 x 100 3 + x 10 3 + x 1 3 = x x_{100}^3 + x_{10}^3 + x_{1}^3 = x x1003+x103+x13=x时,成数x为水仙花数也称水莲花数。
    这个任务的主要难点是提取数据每个位上的数据。不过过程还是很简单的,下面直接给出其中一种实现方式的代码。

    num3 <- function(x){
      x = 100:x
      x_100 <- floor(x / 100)
      x_10 <- floor((x - 100*x_100)/10)
      x_1 <- x - x_100*100 - x_10*10
      y = x_1^3 + x_10^3 + x_100^3 == x
      Data <- data.frame(x = x, y = y)
      Data[y == T, 1]
    }
    

    调用函数如下:

    > num3(200)
    [1] 153
    > num3(500)
    [1] 153 370 371 407
    > num3(800)
    [1] 153 370 371 407
    > num3(999)
    [1] 153 370 371 407
    
    展开全文
  • 实现原理 将每个32位数拆成两个16位数(低16,高16) 低16与低16相加,高16与高16相加 判断低16进位 分别取两个低16的最高进行比较,两个最高都是1必定会进位,两个最高是0必定不进位; 如果...
  • R语言分位数计算Percentiles ...最常用的分位数之一是第50%分位数,它代表数据集的中位数,顾名思义就是中间的那个数值咯; 分位数可用于回答以下问题: 一个学生需要在一个特定的考试中获得什么分数才能进入前10
  • 两样本t检验原理与R语言实现

    千次阅读 2020-12-24 21:12:59
    t检验也称为student t检验,可以用来比较两个均值的差异是否显著,可分为单总体检验、双总体检验、配对样本检验。1.1历史要了解t检验,就不得不提及...戈塞特先生在公司解决的第一个难题是:如何准确测量一个瓶酵...
  • 下面是自己编写的R代码 代码 xingming <- c("A","B","C","D","E","F","G","H","I","J","K","L","M","N","O","P","Q") #姓名列表,大写英文字母表示 fenzu <- function(xingming,m,n){#xingming为学号或者是...
  • 1.描述统计描述统计主要指将数据以...2.1分类型数据2.1.1分类型数据的表格展示分类型数据可以使用频数分布表进行展示,在R中,可以使用table()列出分类型数据的频数分布:> x> table(x)x1 2 33 2 1使用prop...
  • 蒙特·卡罗方法(Monte Carlo...是指使用随机数(或更常见的伪随机)来解决很多计算问题的方法。与它对应的是确定性算法。 通过计算机强大的浮点计算和整数计算能力,我们现在可以做到生成数量巨大的随机数,以 ...
  • 本期是之前做的应用统计学与R语言实现笔记的番外篇四,本期主要关注两个问题,一个是重新利用R的bookdown包创建新的电子书,另一个是计算公共卫生当中一个比较常见的指标OR值。 文章目录1 bookdown使用2 公式更正3 ...
  • Java语言中,int类型占用的二进制位数是答:32七通一平的内容包括、排污通、电及电信通、蒸汽及燃气通答:平整场地 给水通 路通 排水通孩子哭闹时,可喂食糖果,以缓解孩子情绪。答:错湖南凤凰县沱江大桥特大坍塌...
  • 2.若样本量不大,缺失比例也不是很小(比如5%-10%的缺失),或者无论样本量有多大,你就是不想删除这5%-10%的缺失,那么可以根据数据情况选择均值/中位数填补、K-mean填补、回归分析填补、决策树填补、随机森林填补...
  • 在本教程,您将学习如何在R中创建神经网络模型。 神经网络(或人工神经网络)具有通过样本进行学习的能力。人工神经网络是一种受生物神经元系统启发的信息处理模型。它由大量高度互连的处理元件(称为神经元)...
  • 【填空题】1【填空题】9【简答题】读取附件的log,使用正则表达式,读取其中的客户端IP地址,访问时间,访问资源,HTTP版本号,返回状态码,访问流量等信息 apche.log access.log【填空题】In the past century, language ...
  • 目录导引3 两独立样本数据的位置和尺度推断3.1 Brown-Mood 中位数检验3.2 Wilcoxon-Mann-Whitney 秩和检验3.3 Mood 方差检验3.4 Moses 方差检验 这一个系列的笔记和整理希望可以帮助到正在学习非参数统计的同学。我...
  • 【Fine原创】JMeter分布式测试踩过的那些坑最近因为项目需要,研究了性能测试的相关内容,并且最终选用了jmeter...53—第5课:创建负载测试场景在前面的课程,您使用VuGen将验证您的Vuser脚本.在本课,您将评估多...
  • 示例1:使用MCMC的指数分布采样 任何MCMC方案的目标都是从“目标”分布产生样本。在这种情况下,我们将使用平均值为1的指数分布作为我们的目标分布。所以我们从定义目标密度开始: target = function(x){ if(x&...
  • R语言 环境设置

    2021-05-13 15:19:01
    尝试在线环境你真的不需要设置自己的环境来开始学习R编程语言。 原因很简单,我们已经在线设置了R编程环境,以便您可以在进行理论工作的同时在线编译和执行所有可用的示例。 这给你对你正在阅读的信心,并用不同的...
  • 这是一张用R语言生成的,虚拟的wordcloud云图,详细实现细节请參见我的github项目:https://github.com/comaple/R-wordcloud.git好了我们開始今天的旅程吧:本节用到的包有:RColorBrewer用来生成序列颜色值, ...
  • R语言方法总结

    2020-12-18 17:09:12
    这里使用了p值来计算平均数的置信区间(默认置信度为0.95: 例:library(pastecs) stat.desc(mtcars[vars]) 5、describe():psych包 计算非缺失值的数量、平均数、标准差、中位数、截尾均值、绝对中位差、最小值、...
  • R是矢量化的语言,这意味着操作自动地应用于向量的每一个元素,不需要显式编写遍历每...R语言只支持单行注释,注释由符号#开头,当前行出现在#之后的任何文本都会被R解释器忽略。一,变量是什么样子?首先,我们学习...
  • R语言中的参数估计

    千次阅读 2020-12-25 11:52:44
    一直想要写博客来着,一直没有实现,昨天看室友写了,借着复习R语言考试,来开启我的第一篇博客叭! 以下我将从点估计、区间估计来介绍区间估计,本文主要介绍R代码,具体的统计知识,详情可参考相关数理统计的专业...
  • r语言 plot设置刻度

    2020-12-19 12:04:37
    许多R 的高级图形自身就含有坐标轴,此外你可以低级图形函数axis() 设置你自己的坐标轴.坐标轴主要包括三个部分:轴线(axis line)(线条格式由图形参数lty控制),刻度(tick mark)(划分轴线上的刻度) 和刻度标记(tick ...
  • R语言基本操作函数

    千次阅读 2021-05-25 03:41:29
    1.变量变换as.array(x),as.data.frame(x),as.numeric(x),as.logical(x),as...使用如下命令可得到全部列表,methods(as)factor():将一个向量转化为一个因子2.变量信息is.na(x),is.null(x),is.array(x),is.data.frame...
  • 用R语言画图

    2021-01-17 18:30:22
    箱线图boxplot()是箱线图的绘制函数,一般上下两条线为该数据集合的两个极值,极大值和极小值,箱子上下边缘是分位数,箱子中的黑粗线为中位线,而且,该图像不会将异常值考虑在内head(attenu)boxplot(attenu$accel)...
  • R语言基于Bootstrap方法计算标准误差(std. error)实战 目录 R语言基于Bootstrap方法计算标准误差实战 #Bootstrapping计算标准误的流程 #使用boot包计算向量的标准误差 #手动编写实现Bootstrapping计算标准...
  • 此文内容来自微信公众号:R语言搬运工,扫码关注公众号浏览更多精彩内容 当绘制点图并添加拟合曲线的时候,往往需要将相关系数和显著性水平也加入到图片,这时候怎么绘制是经常碰见的问题。为方便快捷的解决这个...
  • R语言:描述性分析

    千次阅读 2021-07-29 15:57:37
    R语言:描述性分析 (一)R内置的分布 (二)集中趋势的分析 实例:2007.01-2012.09时间段中国人寿股票价格 (三)离散趋势的分析 (四)数据的分布分析 (五)图形分析及R实现 1.直方图和密度函数图 2.QQ图 3.茎叶...
  • 快速排序法(R语言

    2021-11-14 11:09:42
    快速排序法算法(R语言) 快速排序(Quicksort)是对冒泡排序算法的一种改进。 快速排序算法通过多次比较和交换来实现排序,其排序流程如下: (1)首先设定一个分界值,通过该分界值将数组分成左右两部分。 (2)将大于...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 142,928
精华内容 57,171
关键字:

中位数用r语言怎么实现