-
r语言 rgl 强制过程中_R语言中的因子型变量
2020-11-26 14:04:06原文链接:R语言中的因子型变量微信公众号:机器学习养成记 搜索添加微信公众号:chenchenwings因子与因子水平R语言的数据类型中,因子(Factor)型比较特殊,也让许多初学者感到难以理解。其实就像整型用来存储整数...原文链接:R语言中的因子型变量微信公众号:机器学习养成记 搜索添加微信公众号:chenchenwings
因子与因子水平
R语言的数据类型中,因子(Factor)型比较特殊,也让许多初学者感到难以理解。其实就像整型用来存储整数、字符型用来存储字符或字符串类似,因子型是用来存储类别的数据类型,因子型变量因此是离散变量。
eg:五个用户月均通话次数分别是(15, 1, 63, 19, 122),存储在变量calls_num中。此时calls_num是一个数值型变量,有五个值,且理论上每个值的取值范围是0到+∞。如果想将这个变量进行离散化,根据[0,10] , (10,100] ,(100,+∞]将次数划分为低频、中频、高频三个类别,这时便可建立一个因子型变量f_calls_num记录每个用户月均通话次数所在类别,即(中频,低频,中频,中频,高频)。因子水平(Level)表示因子的值域,因子的每个元素只能取因子水平中的值或缺失。上例中,因子水平就是(低频,中频,高频)。R语言实现
- 创建因子
R语言中,通过factor()函数建立因子型变量。> calls_num<-c(15,1,63,19,122) > calls_num[1]1516319122 >class(calls_num) [1] "numeric" >f_calls_num<-factor(calls_num) >f_calls_num [1] 15 1 63 19 122 Levels:1 15 19 63 122 >class(f_calls_num)[1] "factor"
其中,class()函数用来检测变量类别。可以看出,calls_num为数字型,经过转化后,f_calls_num变为因子型。Levels表示因子水平。这里还需要注意的一点是,R默认创建数据框时,将文本类型存储为因子型。如果想取消此操作,可在data.frame函数或read.csv函数中设置stringAsFactors=F参数。- 因子水平
可通过levels()函数输出因子水平。> levels(f_calls_num) [1]"1""15""19""63""122" >class(levels(f_calls_num)) [1]"character"
通过上面的例子可以发现,levels的元素都是character类型,可以通过as.character()函数将因子型转化为字符型。
通过设置factor函数中的参数,可以修改因子水平。> f_calls_num<-factor(calls_num,labels=c('a','b','c','d','e'),ordered=TRUE) > f_calls_num [1] b a d c e Levels: a < b < c < d < e #levels(f_calls_num)<-c('a','b','c','d','e') #f_calls_num<-ordered(f_calls_num)
labels表示对因子水平重命名,ordered=TRUE表示建立有序分类。可以用注释部分代码实现相同的效果。删除多余因子水平
在实际应用中,会出现实际取值范围小于因子水平。为了满足特定的运算或提升存储效率,可以使用droplevels()函数删除多余因子水平。> levels(f_calls_num)<-c('a','b','c','d','e','f') > f_calls_num [1] b a d c eLevels: a b c d e f > droplevels(f_calls_num) [1] b a d c eLevels: a b c d e
- 连续数据分组
我们前面讲的例子中,要根据次数大小对数据进行离散化分组,此时可通过cut()函数实现。> f_calls_num2<cut(calls_num, breaks = c(0,10,100,Inf),labels = c('dipin','zhongpin','gaopin'),include.lowest = T,ordered_result = T) > f_calls_num2 [1] zhongpin dipin zhongpin zhongpin gaopin Levels: dipin< zhongpin < gaopin
优点
1、节约存储空间。随硬件能力的提升,人们现在不太关注用因子型来提高存储效率,但R保留了这个方式。
2、因子型变量为离散变量,可通过定义因子型变量区分离散变量。推荐文章· Bagging算法(R语言)·静态爬虫与地址经纬度转换(python)·特征工程(一):前向逐步回归(R语言)·聚类(三):KNN算法(R语言)·小案例(六):预测小偷行为(python)·ggplot2:正负区分条形图及美化
扫描二维码,关注我们。
如需转载,请在开篇显著位置注明作者和出处,并在文末放置机器学习养成记二维码和添加原文链接。快来关注我们吧! -
python 变量 r_python – R在大熊猫线性回归中的relevel()和因子变量
2021-02-03 02:25:16R-squared: 1.000 Method: Least Squares F-statistic: 2.149e+25 Date: Sun, 22 Mar 2015 Prob (F-statistic): 1.64e-13 Time: 05:57:33 Log-Likelihood: 200.74 No. Observations: 7 AIC: -389.5 Df Residuals: 1...你可以使用
pd.get_dummies:
import pandas as pd
d = {'a': [1,2,3,4,3,3,3], 'b': [5,6,7,8,4,4,4], 'c': [9,10,11,12,3,3,3],
'd': pd.Series(['red', 'blue', 'green', 'red', 'orange', 'blue', 'red'],
dtype='category')}
df = pd.DataFrame(d)
dummies = pd.get_dummies(df['d'])
df = pd.concat([df, dummies], axis=1)
df = df.drop(['d', 'green'], axis=1)
print(df)
产量
a b c blue orange red
0 1 5 9 0 0 1
1 2 6 10 1 0 0
2 3 7 11 0 0 0
3 4 8 12 0 0 1
4 3 4 3 0 1 0
5 3 4 3 1 0 0
6 3 4 3 0 0 1
import statsmodels.formula.api as smf
model = smf.ols('a ~ b + c + blue + orange + red', df).fit()
print(model.summary())
产量
OLS Regression Results
==============================================================================
Dep. Variable: a R-squared: 1.000
Model: OLS Adj. R-squared: 1.000
Method: Least Squares F-statistic: 2.149e+25
Date: Sun, 22 Mar 2015 Prob (F-statistic): 1.64e-13
Time: 05:57:33 Log-Likelihood: 200.74
No. Observations: 7 AIC: -389.5
Df Residuals: 1 BIC: -389.8
Df Model: 5
Covariance Type: nonrobust
==============================================================================
coef std err t P>|t| [95.0% Conf. Int.]
------------------------------------------------------------------------------
Intercept -1.6000 6.11e-13 -2.62e+12 0.000 -1.600 -1.600
b 1.6000 1.59e-13 1.01e+13 0.000 1.600 1.600
c -0.6000 6.36e-14 -9.44e+12 0.000 -0.600 -0.600
blue 1.11e-16 3.08e-13 0.000 1.000 -3.91e-12 3.91e-12
orange 7.994e-15 3.87e-13 0.021 0.987 -4.91e-12 4.93e-12
red 4.829e-15 2.75e-13 0.018 0.989 -3.49e-12 3.5e-12
==============================================================================
Omnibus: nan Durbin-Watson: 0.203
Prob(Omnibus): nan Jarque-Bera (JB): 0.752
Skew: 0.200 Prob(JB): 0.687
Kurtosis: 1.445 Cond. No. 85.2
==============================================================================
Warnings:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.
import pandas as pd
import statsmodels.formula.api as smf
d = {'a': [1,2,3,4,3,3,3], 'b': [5,6,7,8,4,4,4], 'c': [9,10,11,12,3,3,3],
'd': ['red', 'blue', 'green', 'red', 'orange', 'blue', 'red']}
df = pd.DataFrame(d)
model = smf.ols('a ~ b + c + C(d, Treatment(reference="green"))', df).fit()
print(model.summary())
参考文献:
-
python中factor函数_左手用R右手Python系列——因子变量与分类重编码
2020-12-04 19:08:16原标题:左手用R右手Python系列——因子变量与分类重编码欢迎关注天善智能 hellobi.com,我们是专注于商业智能BI,大数据,数据分析领域的垂直社区,学习、问答...今天这篇介绍数据类型中因子变量的运用在R语言和Pyt...原标题:左手用R右手Python系列——因子变量与分类重编码
欢迎关注天善智能 hellobi.com,我们是专注于商业智能BI,大数据,数据分析领域的垂直社区,学习、问答、求职,一站式搞定!
对商业智能BI、大数据分析挖掘、机器学习,python,R等数据领域感兴趣的同学加微信:tstoutiao,邀请你进入数据爱好者交流群,数据爱好者们都在这儿。
今天这篇介绍数据类型中因子变量的运用在R语言和Python中的实现。
因子变量是数据结构中用于描述分类事物的一类重要变量。其在现实生活中对应着大量具有实际意义的分类事物。
比如年龄段、性别、职位、爱好,星座等。
之所以给其单独列出一个篇幅进行讲解,除了其在数据结构中的特殊地位之外,在数据可视化和数据分析与建模过程中,因子变量往往也承担中描述某一事物重要维度特征的作用,其意义非同寻常,无论是在数据处理过程中还是后期的分析与建模,都不容忽视。
通常意义上,按照其所描述的维度实际意义,因子变量一般又可细分为无序因子(类别之间没有特定顺序,水平相等)和有序因子(类别中间存在某种约定俗成的顺序,如年龄段、职称、学历、体重等)。
在统计学中对变量进行了如下四类划分:定类变量、定序变量、定距变量、定比变量。而其中的定类和定比变量就对应着我们今天将要讲解的因子变量(无序因子和有序因子变量)。
因子变量从信息含量上来看,其要比单纯的定性变量(文本变量)所包含的描述信息多一些,但是又比数值型变量(定距变量和定比变量)所表述的信息含量少一些。
因而原则上来讲,数值型变量可以转换为因子变量,因子变量可以转换为文本型变量,但是以上顺序却是不可逆的(信息含量多的变量可以放弃信息量,转换为信息含量较少的变量类型,但是信息含量较少的变量却无法增加信息含量)。
以下将分别讲解在R语言和Python中如何生成因子变量、如何将数值型变量转换为因子变量、以及如何对因子变量进行重编码。
在R语言中,通常使用factor直接生成因子变量,我们仅需一个向量(原则上可以是文本型、也可以是数字型,但是通常从实际意义上来说,被转换的应该是一个含有多类别的类别型文本变量)。
factor(x, levels,labels=levels,ordered=)
以上参数中,x即是我们将要转换的变量,levels是将要设定的因子水平(可选参数,省略则自动以向量中的不重复对象为因子水平),labels作为因子标签(可选参数,与前述因子水平对应,若设置,则打印时显示的是对应因子标签,省略则同因子水平一样,使用向量中不重复值【即类别】作为标签),ordered是逻辑参数,设定是否对因子水平排序。
vector
myfactor
通常来说,factor函数中,levels一般不用设置,函数会自动判断向量内有几个水平,但是倘若要生成有序因子的话,默认会根据字母顺序排列,如果自然顺序与目标有序因子顺序不一致,则一定要指定levels,labels则视具体需求而定,如果本身就是文本类别的话,一般无需设定标签。
如果是问卷类数据,而且编码为数值,则一定要通过labels标签的设定来还原每一个编码的真实意义。
factor(vector,labels=c("AAA","BBB","CCC","DDD","EEE"),ordered=TRUE)
因子变量与文本变量数值变量之间的互转则通过as.character()或者as.numeric()函数来实现。
library(dplyr)
as.character(as.factor(1:10))%>%str()
as.numeric(as.factor(1:10))%>%str()
R语言中的因子变量重编码
如果你有一个度量指标,需要将其转换为分段的因子变量,则可以通过cut函数来实现这种转换。
scale
cut(x,breaks,labels=NULL,include.lowest=FALSE,right=TRUE,ordered=)
cut函数参数如上,接受一个数值型向量,breaks接受一个数值向量(标识分割点)或者单个数值(分割 数目)。
right是逻辑参数,设定分割带是左开右闭或者左闭右开。(默认左开右闭)。
include.lowest则根据right的设定,决定是否应该包含端点值(如果right为TRUE,左开右闭区间,则包含最小值,如果right为FALSE,左闭右开区间则包含最大值),默认为FALSE。
ordered则设定是否对因子水平进行排序。
(factor1
另一种分割场景是使用分位数函数进行分割,
qa
(cut(scale,breaks=qa,labels=c("0%~20%","20%~40%","40%~60%","60%~80%","80%~100%"),include.lowest=TRUE,ordered=TRUE))
以上分割方法在是较为常用的因子变量转换方法,当然你可以使用if函数进行类似分割,但是相比较来讲,使用cut函数进行分割要高效很多。
Python
在Python中,Pandas库包含了处理因子变量的一整套完整语法函数。
import pandas as pd
import numpy as np
import string
在pandas中的官方在线文档中,给出了pandas因子变量的详细论述,并在适当位置与R语言进行了对比描述。
http://pandas.pydata.org/pandas-docs/stable/categorical.html#working-with-categories
当利用pandas生成序列时,可以在序列函数内的dtype参数设定因子变量类型。
s = pd.Series(["A","B","C","D","E"], dtype="category")
生成数据框时,也可以直接生成因子变量。
df = pd.DataFrame({"A":["a","b","c","a"]})
df["B"] = df["A"].astype('category')
除了直接在生成序列或者数据框时生成因子变量之外,也可以通过一个特殊的函数pd.Categorical来完成在序列和数据框中创建因子变量。
s = pd.Series(pd.Categorical(["a","b","c","a"], categories=["a","b","c"],ordered=False))
df = pd.DataFrame({"A":["a","b","c","a"]})
df["B"] =pd.Series(pd.Categorical(["a","b","c","a"], categories=["a","b","c"],ordered=False))
因子顺序的添加可以通过设定序列或者数框框列的.astype来进行详细的操作。
s = pd.Series(["a","b","c","a"])
s_cat = s.astype("category", categories=["a","b","c"], ordered=True)
无论是序列中还是数据框中的因子变量生成之后,都可以通过以下属性查看其具体的类型、因子类别、以及是否含有顺序。
s_cat.dtypes
s_cat.cat.categories
s_cat.cat.ordered
一种比较迂回的方法是,先生成普通序列,然后通过设定序列类型完成因子变量的转化。而想要舍弃因子变量,还原成普通的文本序列,则同样只需再其astype中进行格式设定。
s = pd.Series(["a","b","c","a"])
s2 = s.astype('category',categories=["a","b","c"],ordered=True)
s2.astype(str)
最后讲一下,如何在数据框中分割数值型变量为因子变量,pandas的数据框也有与R语言同名的函数——cut。
df = pd.DataFrame({'value': np.random.randint(0, 100, 20)})
labels = [ "{0} - {1}".format(i, i + 9) for i in range(0,100,10) ]
df['group'] = pd.cut(df.value, range(0, 105, 10), right=False, labels=labels)
pd.cut(x, bins, right=, labels=,include_lowest=False)
#df.value代表待风格的变量,第二项是bins可以是一个列表(作为分割点),也可以是一个整数(作为分割带箱数),right控制带宽是左开右闭还是左闭右开,labels设定输出显示标签,include_lowest=控制是否包含边界点(以上参数可以类比R语言中的cut函数)。
最后做一个小总结:
关于因子变量在R语言和Python中涉及到的操作函数;
R语言:
创建因子变量:
factor
转换因子变量:
as.factor
as.numeric(as.character)
分割因子变量:
cut函数
Python:
创建因子变量:
pd.Categorical(categories=,ordered=)
pd.Series(dtype="category")
转换因子变量:
df.astype('category',categories,ordered)
分割因子变量:
df.cut(df.value,breaks=,right=,labels)
天善学院svip包含Excel BI、Python爬虫案例、Python机器学习、Python数据科学家、大数据、数据分析报告、数据分析师体系、深度学习、R语言案例10套课程火爆报名中,欢迎大家关注 www.hellobi.com/svip
转载请保留以下内容:
本文来源自天善社区杜雨老师的博客(公众号)。
原文链接:https://ask.hellobi.com/blog/datamofang/8843返回搜狐,查看更多
责任编辑:
-
R 语言 将因子转化为虚拟变量
2020-05-18 08:28:28在回归分析时,有时候我们需要知道每个因子每个水平的回归系数,这样就需要将因子转化为虚拟变量,R语言中有model.matrix进行转换,但是只能一个转换一个因子,这里我们用R包useful,可以支持多个因子同时转换。...1. 背景
在回归分析时,有时候我们需要知道每个因子每个水平的回归系数,这样就需要将因子转化为虚拟变量,R语言中有
model.matrix
进行转换,但是只能一个转换一个因子,这里我们用R包useful
,可以支持多个因子同时转换。2. 示例数据
Herd <- c(1,1,2,2,2,3,3,3,3) Year = c(rep(c(2018,2019),each=4),2020) Sire <- c("ZA","AD","BB","AD","AD","CC","CC","AD","AD") Yield <- c(110,100,110,100,100,110,110,100,100) dat <- data.frame(Herd,Year,Sire,Yield) dat$Herd <- as.factor(dat$Herd) dat$Year <- as.factor(dat$Year) dat
这里,Herd,Year,Sire都是因子,如果在构建矩阵时,需要转化为虚拟变量。3. R中model.matrix转化方法
一个因子,一个因子的转化,然后进行合并:
X1 = model.matrix(~Herd-1,data=dat) X1 X2 = model.matrix(~Year-1,data=dat) X2 X = cbind(X1,X2) X
4. 更简单的方法
# 简单的方法 # install.packages("useful") # 如果没有安装useful这个包,运行这行命令进行安装。 library(useful) build.x(~Herd+Year-1,data=dat,contrasts = F)
5. 全部代码
# 示例数据 Herd <- c(1,1,2,2,2,3,3,3,3) Year = c(rep(c(2018,2019),each=4),2020) Sire <- c("ZA","AD","BB","AD","AD","CC","CC","AD","AD") Yield <- c(110,100,110,100,100,110,110,100,100) dat <- data.frame(Herd,Year,Sire,Yield) dat$Herd <- as.factor(dat$Herd) dat$Year <- as.factor(dat$Year) dat # R中model.matrix X1 = model.matrix(~Herd-1,data=dat) X1 X2 = model.matrix(~Year-1,data=dat) X2 X = cbind(X1,X2) X # 简单的方法 library(useful) build.x(~Herd+Year-1,data=dat,contrasts = F)
6. 怎么样,学会了么
快来关注我吧!
公众号:育种数据分析之放飞自我 -
r语言清除变量_【R语言】使用R中的lavaan包做潜变量分析
2020-12-01 08:23:16使用R中的lavaan包做潜变量涉及潜变量(latent variable)的数据分析例如验证性因子分析(CFA)和结构方程模型(SEM)在心理学中应用广泛,相信很多小伙伴在写论文的时候都需要用到它们。今天,我将为大家介绍如何使用R的... -
R语言 因子
2020-04-04 06:07:51因子,也称为因子型变量 是R中用于对数据进行分类...在R中,使用因子来表示名义变量或有序变量,其中factor()函数是一种定义因子的方法。它是将一个向量转换成因子,其使用格式为 factor(x = character(),levels,lab... -
分类变量回归: R语言中哑变量编码本质
2021-02-02 22:49:45本篇描述分类变量如何进行回归(翻译自...因此,当研究者希望在回归模型中包含一 -
R中因子水平的自动组合
2018-10-29 17:18:03每次我们在应用计量经济学课程中面对实际应用时,我们都必须处理分类变量。同样的问题也发生在学生身上:我们怎样才能自动地结合因素水平呢?有简单的R函数吗? 在过去的几年里,我确实上传了一些博客文章。但到... -
R:因子
2014-10-27 09:33:39类别(名义型)变量和有序类别(有序型)变量在R中被称为因子(factor)。因子在R中非常重要,因为它决定了数据的分析方式以及如何进行视觉呈现。 因子是R语言中许多强大运算的基础,包括许多针对表格 -
R中的因子数据类型及实例使用
2020-08-04 18:12:57本博文源于R基础,旨在研究R的因子类型。变量的种类分为没有顺序...没有顺序和有顺序的变量在R中称为**因子**! 函数factor()以一个整数向量的形式存储类别值,整数的取值范围是[1...k],R就是基于这个作出数据的可视化 -
R语言 因子 3.31
2020-03-31 23:03:06因子,在R中名义型变量和有序型变量称为因子,factor。这些分类变量的可能值称为一个水平,level,列如good,better,best,都称为一个level。这些水平值构成的向量就称为因子。 因子的应用:计算频数、独立性检验、... -
主成分分析和因子分析及其在R中的…
2015-08-26 19:02:29主成分分析和探索性因子分析是两种用来探索和简化多变量复杂关系的常用方法,它们之间有联系也有区别。 主成分分析(PCA)是一种数据降维方法,它能将大量相关变量转化为一组很少的不相关变量,这些无关变量称为主... -
多元线性模型分类变量方差_第三十一讲 R多元线性回归中的多重共线性和方差膨胀因子...
2021-01-31 23:10:001. 共线性的概念1共线性在多元回归中,两个或多个预测变量可能彼此相关,这种情况称为共线性(multicollinearity)。2多重共线性存在一种称为多重共线性的极端情况,其中三个或更多变量之间存在共线性,即使没有一对... -
对应分析(关联分析、R-Q型因子分析、处理分类变量的利器)原理介绍
2021-02-05 14:47:26在一个数据样本中,不同的样本具有各方面的差异,如果目标是对其进行分组,可根据一批样品的多个观测指标,找出用于度量变量之间相似程度的统计量,并在此基础上利用聚类分析进行分组,使同一组中的样本的特征具有较... -
R在市场调查中的应用--探索性因子分析(EFA)
2017-07-28 19:21:05在R中,我们可以使用factanal()来完成。 2、如果你允许因子之间有相关性的话,可以修改factanal()的rotation参数。 3,在EFA的输出结果中,loadings最为重要,通过loadings可以知道潜在因子与原变量之间的关系。 4,... -
ccs怎么把2个变量都在一个graph中显示_变量压缩之因子分析层次聚类(二)
2021-01-15 03:28:08# coding: utf-8 """ X1 GDP X2 人均GDP X3 工业增加值 X4 第三产业增加值 X5 固定资产投资 X6 基本建设投资 X7 社会消费品零售总额 X8 海关出口总额 X9 地方财政收入 ...os.chdir(r"D:Python_Trainingscript_P... -
R语言基础——因子
2020-03-14 09:07:07因子,在R中名义型变量和有序型变量称为因子,factor。这些分类变量的可能值称为一个水平,level,例如good,better,best,都称为一个level。 由这些水平值构成的向量就称为因子。 因子的应用 计算频数 独立性检验 ... -
python中factor函数_【T】R中的因子(factor),levels, reorder
2020-12-04 19:08:13类别变量和有序类别(有序型)变量在R中称为因子(factor)。区间变量取连续的数值,可以进行求和、平均等运算。名义变量和有序变量取离散值,可以用数值代表也可以是字符型值,其具体数值没有加减乘除的意义,不能用来... -
R因子分析
2020-12-06 13:13:39因子分析法在股票预报上的探索:在本例中为了验证因子分析法的有效性,特意不区分行业,以上海证券交易所和深圳证券交易所进行分层,然后把层内全部股票选入抽样框,以进行随机抽取。从手机金融界得到了23家企业在... -
R语言因子的创建、访问
2020-02-13 15:53:40R语言因子的创建、访问 R语言拥有许多用于存储数据的对象类型,从结构角度来看包括向量(vector)、矩阵(matrix)、数组(array)、数据框(data frame)、列表(list)、因子(factor)。...在R语言中,变量可归结... -
双因子方差分析:R中的双因子ANOVA
2012-06-17 19:30:59Source: ...例如,有时需要考虑变异的两个因子来决定群组之间的平均依赖于群组分类(“zone”),还是第二级需考虑的变量(“block”)。在 -
R语言03-因子
2020-02-09 10:52:13类别(名义型)变量和有序类别(有序型)变量在R中称为因子(factor) 变量:名义型、有序型或连续型变量 名义型变量是没有顺序之分的类别变量。糖尿病类型Diabetes(Type1、Type2)是名义型变量的一例。 有序型变量... -
R语言-因子的构造-factor函数
2021-01-19 23:48:06在R语言中可以使用factor()函数和gl()函数来创建因子变量。 (1)使用factor()函数 factor()函数的语法格式为: f <- factor(x=charactor(), levels, labels=levels, exclude = NA, ordered = is.ordered(x), ... -
R语言因子理解,转自知乎,mark一下
2019-09-06 10:49:26原文链接:如何理解R中因子(factor)的概念? 作者:Sanyo 链接:https://www.zhihu.com/question/48472404/answer/455193433 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 一、... -
R语言入门 Chapter05 | 因子
2020-04-12 09:49:11不登高山,不知天之高也;不临深溪,不知地之厚也。...在R中名义型变量和有序性变量称为因子,factor。这些分类变量的可能值称为一个水平,level,例如good,better,best,都称为一个leve。 由这些水平值构成的向... -
R语言中使用线性模型、回归决策树自动组合特征因子水平
2020-03-28 15:04:49每次我们在应用计量经济学课程中遇到实际应用时,我们都要处理类别变量。学生也提出了同样的问题:我们如何自动组合因子水平?有简单的R函数吗? -
R语言-因子与表格
2014-11-04 23:03:21在table相关的计算中经常被用到levels:因子变量的所有非重复的元素取值集合称为levels 特点: 函数: factor()as.factor()is.factor()tapply(x, f, g):x为数据(必须为vector类型),f为因子... -
R语言--变量类型
2018-10-11 10:10:371.什么是多维数组?(以下是一个三维数组的例子,二维数组就是矩阵) 如果我们创建一个维度(2,3,4)的数组,则它创建4个矩形矩阵,每个矩阵具有2行和3列。...• 存储在数据框中的数据可以是数字,因子或者字... -
R语言初学者——数据结构之因子
2019-03-05 09:27:20变量可归结为名义型,有序型和连续型变量。名义型变量没有顺序之分。...类别型变量和有序型变量在R中被称为因子。这些分类变量的可能值被称为一个水平,level,有这些水平值构成的向量被称为因子。 因子在R统计学分... -
R语言学习——因子
2019-03-05 10:04:00名义型变量是没有顺序之分的类别变量,如糖尿病类型Diabetes(Type1、Type2),即使在数据中Type1编码为1而Type2编码为2,这也并不表示二者有序。有序变量表示一种顺序关系,而非数量关系,如病情S Status(poor、...