精华内容
下载资源
问答
  • 如何在R语言中读取数据

    千次阅读 2018-07-06 09:15:49
    如何在R语言中读取数据 读取数据有以下几种方式: 1.最常用的是采用读取表格数据的函数 read.table()以及read.csv().。这些函数读取一种以行列的格式存储数据的文本文件,然后R返回一个数据框。 2.readLines...

    转自:https://blog.csdn.net/revivre/article/details/78522840
    如何在R语言中读取数据

    读取数据有以下几种方式:

    1.最常用的是采用读取表格数据的函数 read.table()以及read.csv().。这些函数读取一种以行列的格式存储数据的文本文件,然后在R中返回一个数据框。
    
     2.readLines()用于逐行读取文本文件,实际上可以是任何格式的文件,在R中返回一个字符向量。
    
     3.source()是读取R的重要函数,如果你有R代码例如函数或者其他东西写成的文件,都可以用source()将其中的代码读入R中。
    
     4.dget()也可以用来读取R代码文件, 但它读取的是逆句法分析过后以文本文件储存的 R 对象 。
    
    5.load()和unserialize()用于把二进制对象读入R
    
     写入数据有以下几种方式,它们与读取数据一一对应:
    
       1.read.table()是最常用的读入数据的函数,我们有必要了解它的参数是什么以及它们的意义:
    
          第一个参数file,很明显是文件或者链接的名称,通常你提供的文件名都应当是字符串 ,它是你电脑上一个特定文件的路径。
    
          第二个参数header是一个逻辑标志,表明第一行是否是表头 比如 第一行写了所有的变量名 那么这并不是实际数据的一部分 只是提供了标记的行 你要告诉 read.table 函数 第一行是否包含变量名 还是直接就是数据 
    
          第三个 参数是sep,表示分隔符 ,它是一个字符串 用于标示每一列是如何分隔的 假如你有一个文件用逗号分隔 那么分隔符就是逗号 有的时候会碰到分隔符是冒号、制表符或者空格的文件 这时候你就要告诉 read.table 函数分隔符是什么了
    
           第四个参数是colClasses ,应当是一个字符向量 其长度应当与数据集的列数相等 这个字符向量表示 数据集中每一列数据的类 这么说吧 第一列数据是数值型的 第二列数据是逻辑型 第三列数据是因子 诸如此类 colClass 不是一个必须的向量 但它会告诉 read.table() 每一列数据的类型 。
    
            第五个参数是nRows,它 是数据集中数据的行数 虽然不是必须的但有时也会用到。
    
           第六个参数是comment.char,它 是字符串 表明文件中用于注释的字符 默认通常是井号 所有在注释符号后面的字符都会被忽略。
    
           第七个参数是skip ,它指定了从文件开头往下忽略多少行 有的时候文件开头可能有一些头信息或者非数据区域 你想要跳过那些部分 所以你可以告诉 read.table 函数去跳过比如开头的 10 行或者是 100 行 然后从那里再开始读取数据 
    
           最后一个参数是stringAsFactors,默认为 TRUE 它的作用是 通过它可以选择是否把字符变量编码成因子 所以这是默认操作 每次 read.table() 遇到一列看起来像字符变量的数据 它就会假设你希望读入的 是一个因子变量 如果你不想把这一列设成因子变量 那么你可以把 stringAsFactors 设置为 FALSE
    
           当你在使用的时候,你可以直接传入文件名,它会自动调配好剩下的部分。
    
           read.table() 是等价的  除了 read.csv() 的默认分隔符是逗号 而 read.table() 的默认分隔符是空格外。 另外 read.csv() 会默认把 header 参数设置为 TRUE
    
    展开全文
  • RStudio是用于R编程的开源工具... 此大数据分析R语言RStudio使用教程文章,我们将介绍RStudio免费版本的一些最佳功能:RStudio Desktop。我们收集了一些RStudio的重要技巧,窍门和快捷方式,可快速将您变成RStu...

      RStudio是用于R编程的开源工具。如果您对使用R编程感兴趣,则值得了解RStudio的功能。它是一种灵活的工具,可帮助您创建可读的分析,并将您的代码,图像,注释和图解保持在一起。

      在此大数据分析R语言RStudio使用教程文章中,我们将介绍RStudio免费版本的一些最佳功能:RStudio Desktop。我们收集了一些RStudio的重要技巧,窍门和快捷方式,可快速将您变成RStudio高级用户!

      1.在窗口窗格之间快速导航

      RStudio窗格可让您访问有关项目的重要信息。知道如何在窗格之间切换而无需触摸鼠标来移动光标将节省时间并改善工作流程。使用这些快捷方式可以在窗格之间即时移动:

      1)Control/Ctrl + 1:源代码编辑器(您的脚本)

      2)Control/Ctrl + 2: 安慰

      3)Control/Ctrl + 3: 救命

      4)Control/Ctrl + 4:历史

      5)Control/Ctrl + 5:文件

      6)Control/Ctrl + 6:情节

      7)Control/Ctrl + 7:套餐

      8)Control/Ctrl + 8: 环境

      9)Control/Ctrl + 9:查看者

      如果您希望一次只看到一个窗格,请添加Shift到上述任何命令中以最大化窗格。例如,输入Control/Ctrl + Shift + 1以最大化您正在使用的R脚本,笔记本或R Markdown文件。

      (旁注:+我们在快捷方式中显示的意思是“和”,因此不需要实际键入+键。)

      但是,如果您想返回标准的四窗格视图怎么办?没问题!输入Control/Ctrl + Shift + 0:

    bdedadbb5fcf4f4afe33e1eb32f7078a.png

      2.键盘快捷键

      了解RStudio键盘快捷键将在编程时节省大量时间。RStudio提供了许多有用的快捷方式,您可以通过顶部的菜单访问它们Tools > Keyboard Shortcuts Help。

      访问RStudio键盘快捷键的另一种方法是使用快捷键!要访问快捷方式,请Option + Shift + K在Mac或Alt + Shift + KLinux和Windows上输入。

      以下是一些我们最喜欢的RStudio快捷方式:

      1)在Mac或Linux和Windows上,将

      2)插入管道运营商%>%与Command + Shift + M在Mac上,或Ctrl + Shift + M在Linux和Windows。

      3)Command + Enter在Mac或Control + EnterLinux和Windows 上运行当前代码行。

      4)Command + A + Enter在Mac或Control + A + EnterLinux和Windows 上使用运行所有代码行。

      5)重新启动当前的R会话,然后Command + Shift + F10在Mac或Control + Shift + F10Linux和Windows上重新开始。

      6)Command + Shift + C在Mac或Control + Shift + CLinux和Windows 上使用注释或取消注释行。

      7)试图记住您之前提交的命令吗?Command + [up arrow]在Mac或Control + [up arrow]Linux和Windows 上,从控制台搜索命令历史记录。

      还有许多有用的快捷方式可用,但是通过掌握上述快捷方式,您将成为RStudio高级用户!

      RStudio快捷方式的另一个重要资源是此处提供的官方RStudio备忘单。

      3.通过代码完成节省时间

      开始键入后,将弹出一个建议窗口,其中包含匹配的函数,对象和代码片段名称。您可以使用向上或向下箭头在列表中切换,然后单击return/Enter以进行选择。

      另外,您可以利用称为模糊匹配的非常酷的功能,该功能使您可以通过输入与匹配项唯一的字母来缩小搜索范围。您不需要输入所有字母,只要您输入的内容与字符串的顺序匹配即可。

      让我们看一下这些代码完成方法是如何工作的。首先,我们将installed.packages()通过键入部分函数名称来选择函数,然后使用箭头进行选择。接下来,我们将使用模糊匹配仅输入instd以进一步缩小选择范围:

    28b150618548dfd5708a7af99f363512.gif

      4.快速查找文件和功能

      在RStudio中,无需摸索文件夹结构来查找文件,也无需挖掘功能!输入快捷方式control/ctrl + .以打开Go to File/Function窗口,然后使用模糊匹配技能来缩小选择范围:

    6e61295fb2004474f6b622530c5e30f2.gif

      5.自定义外观

      RStudio提供了大量选项,可根据您的喜好自定义外观。在RStudio标签下,导航以Preferences > Appearance浏览许多可用选项。RStudio的一个不错的功能是您可以快速单击Editor theme窗口以预览每个主题。

    a36e818702a25d28a65c4c79232615f8.png

      6.轻松链接到文档

      在Help右下方窗口的标签下,您会找到指向R函数和R软件包在线文档的便捷链接。例如,如果我们install.packages()使用搜索栏搜索有关功能的信息,则返回官方文档:

    fd5227a9bc017d621625bb6af0d5f918.png

      我们还可以在Help选项卡中访问文档,方法是在软件包或函数之前添加?,例如,?install.packages然后在控制台中运行命令。无论使用哪种方法,RStudio都会在您键入时自动填充匹配的函数名称!

      7.预览并保存您的绘图

      在RStudio会话期间生成的图将显示在Plots右下方窗口的选项卡下。在此窗口中,您可以通过放大和缩小来检查图。如果要保存绘图,则可以将绘图另存为PDF或图像文件。

    930eaa08461b1f24e4ec0aa9ed6940e3.png

      8.导入和预览数据集

      RStudio使导入和预览数据集变得容易,无需编码!在Environment右上方窗口的选项卡下,具有使您可以导入数据集的功能。此功能支持多种格式:

    18f625a80aa93d73e379e4612b4a3a14.png

      您甚至可以在加载数据集之前对其进行预览:

    52b81415a06df100a1fd8247f4637db6.png

      在将数据集加载到RStudio中之后,您可以使用View()命令或单击数据集的名称来查看它:

    d6d6bf437afdcbb9cbcd950bc479b31f.png

      9.一键查看命令历史记录

      之前,我们从控制台学习了命令历史记录的快捷方式。RStudio还使您可以通过单击History选项卡在右上窗口中查看整个命令历史记录:

    f5613cbc8c0811d6e04175904f3fa468.png

      10.保存您的“真实”工作。删除其余的。

      练习良好的内务管理,避免将来遇到不可预见的挑战。如果创建值得保存的R对象,请在R脚大数据分析R语言RStudio使用教程件中捕获生成该对象的R代码。保存R脚本,但不要保存创建对象的环境或工作空间。

      为防止RStudio保存工作区,请打开Preferences > General并取消选择.RData在启动时还原到工作区的选项。确保指定您永远不要保存工作空间,如下所示:

    615ef579b92edd534485b880ce565c24.png

      现在,每次打开RStudio时,都会从一个空会话开始。您以前的会话生成的代码都不会被记住。R脚本和数据集可用于从头开始重新创建环境。

      11.组织项目工作

      RStudio提供了强大的功能,可让您保持井井有条;项目。在进行多个分析时,保持有条理很重要。RStudio的项目使您可以将所有重要工作放在一个地方,包括代码脚本,绘图,图形,结果和数据集。

      导航到FileRStudio中的选项卡,然后选择,创建一个新项目New Project...。您可以选择在新目录或现有目录中创建新项目。如果您使用的是R软件包或Shiny Web应用程序,则RStudio提供专用的项目类型。

      当您需要与同事共享工作时,RStudio项目非常有用。您可以将项目文件(以结尾.Rproj)与所有支持文件一起发送,这将使您的同事更轻松地重新创建工作环境并重现结果。

      但是,如果您希望进行无缝协作,则可能需要将软件包管理引入工作流程中。幸运的是,RStudio提供了一个有用的软件包管理工具renv,该工具现已与RStudio项目兼容。renv接下来我们将介绍。

      12.使用renv管理软件包版本

      我们很喜欢AAA教育的R,但是管理程序包版本可能是一个挑战!幸运的是,得益于RStudio 的renv(“可复制环境”)软件包,R软件包管理比以往任何时候都容易。现在,RStudio包含对的内置支持renv。

      renv在本大数据分析R语言RStudio使用教程中,我们不会详细介绍如何与RStudio项目一起使用,因为RStudio在我们提供的链接和小插图中为您提供了所需的信息。但是,renv与RStudio一起使用可以使R包管理更加容易,所以我们想告诉您!

      该renv软件包将替代RStudio曾经维护的Packrat软件包。

      要使用renv与您的RStudio项目包升级到RStudio的最新版本,然后安装renv与包library("renv")。从那里,您可以选择renv与所有新项目一起使用:

    404497d99ffe2d3fa0596076530d5043.png

      如果您想renv与现有项目一起使用,请浏览Tools > Project Options > Environments并选中相应的框以启用renv:

    10a4ed18bb939d5549c8d7cb52d620e8.png

      13.在RStudio中使用GitHub管理版本控制

      除了在RStudio中管理软件包外,您还可以将GitHub与RStudio一起使用,以维护项目和R脚本的版本控制。看看这篇文章从GitHub和这篇文章从RStudio所有你需要的Git集成到您的工作流程RStudio的信息。

      14.代码段

      RStudio提供了一个非常有用的功能,用于插入称为代码段的通用代码块。我们的最爱之一是该lib代码段,可在调用library()函数加载R包时为您节省一些输入时间:

    bbcb9959c9ff4904a6637b69131ef1b5.png

      按下return键以选择代码段后,library()函数将被加载并且光标已定位,因此您可以立即开始输入要加载的包的名称:

    1b03a9c26a30982ec672da3a6d85197e.png

      我们另一个喜欢的fun片段是提供用于编写​​自定义函数的基本模板的片段。您甚至可以添加自己的代码段!要了解更多信息,请查看这篇文章从RStudio代码片段。

      15.深入研究函数的源代码

      如果您想研究某个函数的源代码,请将光标移至所需的函数并输入F2(在Mac上,您可能需要输入fn + F2)。此功能甚至适用于从您使用的任何R包加载的功能。

      16.函数提取

      如果您已经编写了要转换为功能的代码块,请突出显示该代码块,然后control + option X在Mac Ctrl + Alt + X上的Linux / Windows上输入。将会出现一个弹出窗口,要求您选择一个函数名称。

    40d573ac284531414748d209c63a8523.png

      选择功能名称后,将代码自动添加为功能所需的输入和代码结构。

    a60ac7bf4a7d2727f9acb2e8c03a0da5.png

      如果您有要提取的变量,请突出显示该变量,然后control + option V在Mac Ctrl + Alt + V上的Linux / Windows上输入。

      17.重命名范围

      在某些时候,您可能需要更改函数名称或其中一个函数中使用的变量。但是使用查找和替换来执行此操作可能会令人不安!幸运的是,RStudio可以在范围内重命名。这意味着您的更改将仅限于感兴趣的变量或功能。大数据分析R语言RStudio使用教程https://www.aaa-cg.com.cn/data/2394.html这样可以防止您意外替换代码脚本中其他位置的同名变量。要使用此功能,请选择要更改的函数或变量,然后control + shift + option + M在Mac或Ctrl + Shift + Alt + MLinux / Windows上输入。

    6e30daf4666ccbed32daa33406146a2d.png

      18.多光标支持

      RStudio支持多个光标。按住optionMac或AltWindows / Linux时,只需单击并拖动鼠标。

    90215a5d327fd1a9ee039143c5b7f84b.png
    2d1670b9e67119f56f8f44caea4ab7c4.png

      19.将Python与RStudio一起使用并网状

      RStudio支持python编码。 在RStudio中启动并运行python的过程涉及以下常规步骤:

      安装基本版本的Python

      安装pip和virtualenv

      在RStudio项目中创建Python环境

      激活您的Python环境

      在您的环境中安装所需的Python软件包

      安装并配置R Reticulate软件包以使用Python

    4aca78673e0970af28343799d763a910.png

      大数据分析R语言RStudio使用教程提供了上述步骤所需的代码。 我们尝试了一下,仅用了几分钟就可以在RStudio中运行python了:

      20.使用DBI包查询SQL

      有很多方法可以在RStudio中运行SQL查询。 从R的DBI包开始,以下是三种最受欢迎的方法。

      首先,生成一个内存中的SQL数据库,以在所有SQL查询示例中使用。 您将生成一个著名的“ mtcars”数据集的SQL数据库。 这是代码:

    c051a224000a4461c9074a4d77a42e01.png

      现在编写一个SQL查询,以使用四缸引擎从数据库中选择所有汽车。此命令返回一个数据框,您将另存为dbi_query:

    fac7d62b8575ad951bc6cce0bedb0362.png

      数据框如下所示:

    caea2efad1a5cf87078cfafd059d2ac5.png

      21.使用R Markdown或使用R Notebook查询SQL

      通过创建{sql}代码块,可以在R Notebook或R Markdown中获得相同的结果。 使用第一个示例中的连接和数据库,运行以下代码:

    76b3ebd2408c2bd0d2e1c55ae9922f0a.png

      指定output.var =“ mt_cars_df”将查询结果保存到数据框。此数据框是标准R数据框,与您在前面的示例中生成的数据框相同。 您可以在R代码块中使用此数据帧来执行分析或生成ggplot,例如:

    a2b2dd3d800d14d206aefef282f9fe84.png
    b249ef16ef4dad92652feace01dc3a2d.png

      22.使用dbplyr查询SQL

      最后,您将使用dbplyr软件包编写标准的dplyr命令,这些命令将转换为SQL! 再次使用第一个示例中的连接和数据库,您可以编写一个标准filter()调用来查询具有四个汽缸的汽车,这将返回一个列表对象:

    b4efa909b640adf02c987189b99a1198.png

      如果要查看此命令转换为的SQL代码,可以使用dbplyr中的show_query()函数:

    bad4fec81899b8911f0db1078a859f98.png

      对查询结果满意后,可以使用dbplyr中的collect()函数将结果另存为数据框:

    38707719c21b79a5d6c6e72a588e9408.png

      你有它! 查询具有类似结果的SQL数据库的三种不同方法。 示例之间的唯一区别是dbplyr方法返回一个小标题,而前两个方法返回一个标准R数据帧。

      要了解有关使用RStudio查询SQL数据库的更多信息,请查阅大数据分析R语言RStudio使用教程

      23.将它带到云端!

      RStudio现在提供了一个名为RStudio Desktop的基于云的版本,您猜对了……RStudio Cloud。 RStudio Cloud允许您在RStudio中进行编码,而无需安装软件,只需要一个Web浏览器。

      RStudio Cloud中的工作被组织到类似于桌面版本的项目中,但是RStudio Cloud使您可以指定希望用于每个项目的R版本。

      RStudio Cloud还可以轻松,安全地与同事共享项目,并确保每次访问项目时都能完全再现工作环境。

      如您所见,RStudio Cloud的布局与RStudio Desktop非常相似:

    8fc5d2743ef58b66222393514753bc32.png

    相关推荐

    大数据分析R Markdown的使用技巧

    大数据分析使用numpy在pandas dataframe上添加列

    大数据分析Python PyAudio库语音API转文字教程

    大数据分析师面试求职攻略

    大数据分析机器学习的数据清理和准备

    0基础小白必知的10种机器学习算法

    展开全文
  • 关于此回购 R在行为科学之应用”收集R脚本和数据。 使这些代码可重复! 已将所有脚本和数据集收集到此存储库。... 因为源代码和数据集是BIG5编码的,所以用户必须在Rstudio中打开BIG5编码。
  • 如何使用R语言中的内置数据集?

    万次阅读 2018-10-29 07:51:45
    最近学习PSM分析方法时,找了许久也找不到相应的案例数据, 就想到了使用R语言中内置的数据集来进行学习。R语言内置数据集有两个优点: 一是,数据源真实可靠,多数是研究者贡献的真实研究数据数据共享不涉及...

    如何使用R语言中的内置数据集

    最近在学习PSM分析方法时,找了许久也找不到相应的案例数据, 就想到了使用R语言中内置的数据集来进行学习。R语言内置数据集有两个优点: 一是,数据源真实可靠,多数是研究者贡献的真实研究数据,数据共享不涉及版权问题;二是,使用方便,不需要费力的全网搜索。如何使用R语言中的内置数据集?

    1. 查看R语言的内置数据集
      R的内置数据集一共有两种:R内部 datasets 包中的数据集以及安装的其他 package 中包含的数据集,这些数据集的查看方法如下:
    data(package = .packages(all.available = TRUE)) #查看所有数据集
    
    data()#查看 R 内存中 datasets 包中的数据集,datasets 包提供了 100 个可以使用的数据集
    
    data(package="MatchIt")#查看 MatchIt 包中的数据集
    
    help("lalonde") #查看 lalonde 数据集的信息文档
    ?lalonde #查看 lalonde 数据集的信息文档
    
    1. 使用内置数据集
    str(lalonde)#显示 lalonde 的 数据基本信息
    'data.frame':	614 obs. of  10 variables:
     $ treat   : int  1 1 1 1 1 1 1 1 1 1 ...
     $ age     : int  37 22 30 27 33 22 23 32 22 33 ...
     $ educ    : int  11 9 12 11 8 9 12 11 16 12 ...
     $ black   : int  1 0 1 1 1 1 1 1 1 0 ...
     $ hispan  : int  0 1 0 0 0 0 0 0 0 0 ...
     $ married : int  1 0 0 0 0 0 0 0 0 1 ...
     $ nodegree: int  1 1 0 1 1 1 0 1 0 0 ...
     $ re74    : num  0 0 0 0 0 0 0 0 0 0 ...
     $ re75    : num  0 0 0 0 0 0 0 0 0 0 ...
     $ re78    : num  9930 3596 24909 7506 290 ...
    

    lalonde 数据集为最传统的倾向值匹配分析所用到的数据集.数据如下所示, 共有 10 个变量, 614 个观测,试验组 185 例, 对照组 429 例. treat 变量为分组变量 (是否参加就业培训) , “1” = 试验组, “0” = 对照组. age (年龄), educ (教育年限), black (是否为黑人), hispan (是否为拉丁族), married (是否结婚), nodegree (是否受过教育), re74 (1974 年实际收入), re75 (1975 年实际收入) 等为协变量, re78 (1978 年实际收入) 为结局变量.

    summary(lalonde)# lalonde 数据的简单统计描述
     treat             age             educ           black       
     Min.   :0.0000   Min.   :16.00   Min.   : 0.00   Min.   :0.0000  
     1st Qu.:0.0000   1st Qu.:20.00   1st Qu.: 9.00   1st Qu.:0.0000  
     Median :0.0000   Median :25.00   Median :11.00   Median :0.0000  
     Mean   :0.3013   Mean   :27.36   Mean   :10.27   Mean   :0.3958  
     3rd Qu.:1.0000   3rd Qu.:32.00   3rd Qu.:12.00   3rd Qu.:1.0000  
     Max.   :1.0000   Max.   :55.00   Max.   :18.00   Max.   :1.0000  
         hispan          married          nodegree           re74      
     Min.   :0.0000   Min.   :0.0000   Min.   :0.0000   Min.   :    0  
     1st Qu.:0.0000   1st Qu.:0.0000   1st Qu.:0.0000   1st Qu.:    0  
     Median :0.0000   Median :0.0000   Median :1.0000   Median : 1042  
     Mean   :0.1173   Mean   :0.4153   Mean   :0.6303   Mean   : 4558  
     3rd Qu.:0.0000   3rd Qu.:1.0000   3rd Qu.:1.0000   3rd Qu.: 7888  
     Max.   :1.0000   Max.   :1.0000   Max.   :1.0000   Max.   :35040  
          re75              re78        
     Min.   :    0.0   Min.   :    0.0  
     1st Qu.:    0.0   1st Qu.:  238.3  
     Median :  601.5   Median : 4759.0  
     Mean   : 2184.9   Mean   : 6792.8  
     3rd Qu.: 3249.0   3rd Qu.:10893.6  
     Max.   :25142.2   Max.   :60307.9  
    

    结果显示了所有变量的简单描述性统计指标包括:最小值(Min), 25%分位数(1st Qu.), 50%分位数(Median), 均值(Mean), 75%分位数( 3rd Qu.), 最大值(Max).

    展开全文
  • R语言数据输入

    千次阅读 2020-07-03 20:42:56
    R可从键盘、文本文件、Microsoft Excel和Access、流行的统计软件、特殊格式的文件、多种关系型数据库管理系统、专业数据库、网站和在线服务导入数据。因此本节整理了RRStudio中数据输入的集中方式。
    谋事在人,成事在天,不求尽如人意,但求无愧于心!

           R可从键盘、文本文件、Microsoft Excel和Access、流行的统计软件、特殊格式的文件、多种关系型数据库管理系统、专业数据库、网站和在线服务中导入数据。因此本节整理了R(RStudio)中数据输入的集中方式。

    在这里插入图片描述

    1.键盘输入数据

          例如,创建一个含有三个变量:age(数值型) 、gender(字符型)和weight(数值型),名为mydata的数据框,然后通过mydata<-edit(mydata)或者fix(mydata)调用文本编辑器,键入数据,最后保存结果。

    fix(mylist)
    > mydata <- data.frame(age=numeric(0), gender=character(0), weight=numeric(0)) 
    #age=numeric(0)的赋值语句将创建一个指定模式但不含实际数据的变量
    > mydata
    [1] age    gender weight
    <0 行> (或0-长度的row.names)
    > mydata<-edit(mydata)
    #函数edit()事实上是在对象的一个副本上进行操作的,需要将其赋值到一个目标,才能保存输入的数据! 
    > fix(mydata)
    

    数据编辑器


           通过键盘输入数据的方式,在处理小数据集的时候比较方便有效,但是对于较大的数据集,就需要从已有的文本文件、Excel电子表格、统计软件或数据库中导入数据。

    2.读取文本文件

           可以使用read.table()函数从带分隔符的文本文件中导入数据。该函数可读入一个表格格式的文件并将其保存为一个数据框。表格的每一行分别出现在文件中每一行。其语法如下:
    mydataframe <- read.table(file, options)
    其中,file是一个带分隔符的ASCII文本文件,options是控制如何处理数据的选项。表2-2列出了常见的选项。

    选 项
    描 述
    header表示文件第一行是否包含有逻辑型的变量名
    sep分开数据的分隔符 ,默认是 sep="",这表示了一个或多个空格、制表符、换行或回车。使用 sep=",“来读取用逗号来分隔行内数据的文件,使用 sep=”\t"来读取使用制表符来分割行内数据的文件
    row.names用于指定一个或者多个行标记符的可选参数
    col.names如果数据文件第一行不包含变量名(header=FALSE),则可用col.names去指定一个包含变量名的字符向量,若header=FALSE以及col.names选项被忽略,变量则会被命名为V1、V2 ……
    na.strings用于表示缺失值的字符向量 ,例如:na.strings=c("-9","?") 在读取数据的时候把-9和?值转换成NA
    colClasses可选的分配到每一列的类向量,比如, colClasses=c(“numeric”, “numeric”, “character”, “NULL”, “numeric”)把前两列读取为数值型变量,把第三列读取为字符型向量,跳过第四列,把第五列读取为数值型向量。如果数据有多余五列,colClasses 的值会被循环。当你在读取大型文本文件的时候,加上 colClasses 选项可以可观地提升处理的速度
    quote用于对有特殊字符的字符串划定界限的字符串,默认值是(")或者(’)
    skip读取数据前跳过的行的数目 ,该选项在跳过头注释的时候较有用
    stringsAsFactors一个逻辑变量,标记处字符向量是否需要转化成因子,默认值是TRUE ,除非它被colClasses覆盖,处理大型文本文件设置成stringsAsFactors=FALSE可以提升处理速度
    text一个指定文字进行处理的字符串,若设置了text,file应该被留空

    3.导入Excel文件

           读取Excel文件需要用到read.xlsx()函数,需要安装并加载xlsx包,前提是系统已经安装了JDK,不然会有错误提示。

    >install.packages("xlsx")
    >library(xlsx)
    > workbook<-"C:/Users/Administrator/Desktop/kaggle数据/Rstudy/pvar.xlsx"
    #文件的绝对路径
    > data<-read.xlsx("pvar.xlsx",sheetIndex = 1)
    #file="pavr.xlsx"读取的文件名,sheetIdex=1:读取第一个工作表
    > data
        PROVINCE YEAR       DN       DI      GDP       TA        CY        ZS
    1     瀹夊窘 2005 3.670617 2.460838 3.728368 3.329961 1.3979400 1.3364597
    2     瀹夊窘 2006 3.789510 2.588417 3.786219 3.378451 1.2988531 1.3909351
    3     瀹夊窘 2007 3.894814 2.735343 3.866932 3.445570 1.4065402 1.4471580
    4     瀹夊窘 2008 3.997299 2.845222 3.947025 3.509826 1.5705429 1.6085260
    5     瀹夊窘 2009 4.088774 2.936413 4.002720 3.563736 1.6148972 1.6404814
    6     瀹夊窘 2010 4.186080 3.039335 4.091995 3.622596 1.7160033 1.7379873
    ……
    122   婀栧崡 2014 4.612604 3.477344 4.431964 4.057153 2.0161974 2.1610684
    123   婀栧崡 2015 4.673064 3.563476 4.460931 4.105843 2.0707765 2.1798389
    124   婀栧崡 2016 4.750562 3.666586 4.499018 4.165299 2.1152776 2.1908917
    125   婀栧崡 2017 4.823552 3.850350 4.530238 4.224250 2.1417632 2.2177471
     [ reached 'max' / getOption("max.print") -- omitted 155 rows ]
    

    中文乱码先不讲,后续再补充。omitted 155 rows表示省略了155行。
    如果数据量较小需要全部显示,可以设置最大显示行列数,如下:

    > getOption("max.print")#查看最大显示行列数
    [1] 1000
    >options(max.print=10000)#将最大显示行列数设置为10000,根据需要设置就可以全部显示出来了
    >> data
            PROVINCE YEAR       DN       DI      GDP       TA        CY        ZS
    1         瀹夊窘 2005 3.670617 2.460838 3.728368 3.329961 1.3979400 1.3364597
    2         瀹夊窘 2006 3.789510 2.588417 3.786219 3.378451 1.2988531 1.3909351
    3         瀹夊窘 2007 3.894814 2.735343 3.866932 3.445570 1.4065402 1.4471580
    4         瀹夊窘 2008 3.997299 2.845222 3.947025 3.509826 1.5705429 1.6085260
    ……
    276       娴欐睙 2014 4.680109 3.774298 4.603935 4.283771 2.4312029 2.4471580
    277       娴欐睙 2015 4.720424 3.827369 4.632321 4.329233 2.4578819 2.4545400
    278       娴欐睙 2016 4.758155 3.880814 4.674414 4.381865 2.4962375 2.4668676
    279       娴欐睙 2017 4.798430 3.942702 4.714064 4.440945 2.5300716 2.5118834
    280       娴欐睙 2018 4.834967 3.992730 4.763449 4.487405 2.5812668 2.5259513
    

    此外,还可以用View()函数查看

    > View(data)
    

    在这里插入图片描述
    或者

    >library(xlsx)
    >workbook<-"C:/Users/Administrator/Desktop/kaggle数据/Rstudy/pvar.xlsx"
    >mydataframe<-read.xlsx(workbook,1)
    >mydataframe
    

           xlsx包可以用来对Excel文件进行读取、写入和格式转换。调用read.xlsx()函数将工作表导入到数据框中。最简单的格式是read.xlsx(file, n),其中file是Excel工作簿的所在路径,n则为要导入的工作表序号。 函数read.xlsx()有些选项可以允许你指定工作表中特定的行(rowIndex)和列(colIndex) ,配合上对应每一列的(colClasses) 。大型的工作簿(比如说,100 000+个单元格),可以使用read.xlsx2()函数。这个函数用Java来运行更加多的处理过程,因此能够获得可观的质量提升。请查阅help(read.xlsx)获得更多细节, 也有其他包可以帮助你处理Excel文件。替代的包包含了XLConnect和openxlsx包XLConnect依赖于 Java,不过openxlsx并不是。所有这些软件包都可以做比导入数据更加多的事情——它们也可以创建和操作Excel文件。那些需要创建R和Excel之间的接口的程序员应该要仔细查看这些软件包中的一个或多个。

    4.导入SPSS数据

          可以通过调用foreign包中的read.spss()函数将 IBM SPSS数据集导入到R中, 也可以使用Hmisc包中的spss.get()函数。函数spss.get()是对read.spss()的一个封装,它可以为你自动设置后者的许多参数,让整个转换过程更加简单一致,最后得到数据分析人员所期望的结果。

    >install.packages("Hmisc")
    >library(Hmisc)
    >mydataframe <- spss.get("Cluster.sav", use.value.labels=TRUE) 
    #mydata.sav是要导入的SPSS数据文件,use.value.labels=TRUE表示让函数将带有值标签的变量导入为R中水平对应相同的因子,mydataframe是导入后的R数据框。 
    > mydataframe
    

    5.导入SAS数据

          R语言中设计了很多用来导入SAS数据集的函数,常用的有以下几种:

    函数
    foreignread.ssd()
    Hmiscsas.get()
    sas7bdatread.sas7bdat()

    如果设备中安装了SAS,sas.get()是一个好的选择。 比如,导入一个名为Cluster.sas7bdat的SAS数据集文件,它位于一台Windows机器上的C:/Users/Administrator/Desktop/kaggle数据/Rstudy文件夹中,以下代码导入了数据,并且保存为一个R数据框:

    >library(Hmisc) 
    >datadir <- "C:/Cluster" 
    >sasexe <- "C:/Users/Administrator/Desktop/kaggle数据/Rstudy/sas.exe" 
    >mydata <- sas.get(libraryName=datadir, member="clients", sasprog=sasexe) 
    #libraryName是一个包含了SAS数据集的文件夹,member是数据集名字(去除掉后缀名sas7bdat) ,sasprog是到SAS可运行程序的完整路径。
    

    6.导入Stata数据

          要将Stata数据导入R中非常简单直接。代码类如下:

    >library(foreign)
    >mydataframe<-read.dta("data620.dta")
    >mydataframe
    

    7.访问数据库管理系统

          R中有多种面向关系型数据库管理系统 (DBMS) 的接口, 包括Microsoft SQL Server、 Microsoft Access、MySQL、Oracle、PostgreSQL、DB2、Sybase、Teradata以及SQLite。其中一些包通过原生的数据库驱动来提供访问功能,另一些则是通过ODBC或JDBC来实现访问的。使用R来访问存储在外部数据库中的数据是一种分析大数据集的有效手段(参见附录F) ,并且能够发挥SQL和R各自的优势。

    7.1. ODBC接口

          在R中通过RODBC包访问一个数据库也许是最流行的方式,这种方式允许R连接到任意一种拥有ODBC驱动的数据库。 首先要针对你的系统和数据库类型安装和配置合适的ODBC驱动——它们并不是R的一部分, 针 对 选 择 的 数 据 库 安 装 并 配 置 好 驱 动 后 , 可 以 使 用 命 令install.packages(“RODBC”)来安装 RODBC 包 。RODBC包中的主要函数如下表:

    函 数
    描 述
    odbcConnect(dsn,uid="",pwd="")建立一个到 ODBC 数据库的连接
    sqlFetch(channel,sqltable)读取ODBC数据库中的某个表到一个数据框中
    sqlQuery(channel,query)向 ODBC 数据库提交一个查询并返回结果
    sqlSave(channel,mydf,tablename=sqtable,append=FALSE)将数据框写入或更新 (append=TRUE) 到ODBC数据库的某个表中
    sqlDrop(channel,sqtable)删除 ODBC数据库中的某个表
    close(channel)关闭连接

          RODBC包允许R和一个通过ODBC连接的SQL数据库之间进行双向通信。 这就意味着你不仅可以读取数据库中的数据到R中,同时也可以使用R修改数据库中的内容。假设你想将某个数据库中的两个表(Crime和Punishment)分别导入为R中的两个名为crimedat和pundat的数据框,可以通过如下代码完成这个任务:

    >library(RODBC) 
    >myconn <-odbcConnect("mydsn", uid="Rob", pwd="aardvark") #通过数据源名称、用户名、密码打开一个ODBC数据库连接
    >crimedat <- sqlFetch(myconn, Crime) 
    >pundat <- sqlQuery(myconn, "select * from Punishment") 
    >close(myconn) 
    

           连接字符串被传递给sqlFetch(),它将Crime表复制到R数据框crimedat中。然后我们对Punishment表执行了SQL语句select并将结果保存到数据框pundat中。最后,我们关闭了连接。 函数sqlQuery()非常强大,因为其中可以插入任意的有效SQL语句。这种灵活性赋予了你选择指定变量、对数据取子集、创建新变量,以及重编码和重命名现有变量的能力。

    7.2. DBI相关包

          DBI包为访问数据库提供了一个通用且一致的客户端接口。构建于这个框架之上的RJDBC包提供了通过JDBC驱动访问数据库的方案。使用时请确保安装了针对你的系统和数据库的必要JDBC驱动。其他有用的、基于DBI的包有RMySQL、ROracle、RPostgreSQL和RSQLite。这些包都为对应的数据库提供了原生的数据库驱动,但可能不是在所有系统上都可用。详情请参阅CRAN(http://cran.r-project.org)上的相应文档。


    特别注明:本文属于R语言学习笔记,不以盈利为目的,纯手工码字不容易,若整理的笔记中,对您有所助益,麻烦点个赞或者收藏,万分感谢!如有构成侵权的地方,请联系作者删除,谢谢合作!

    展开全文
  • R语言含中文数据导入的方法

    千次阅读 2020-07-17 16:53:52
    介绍R语言含中文数据导入的方法。
  • R语言 导入网页数据

    千次阅读 2020-04-07 18:16:03
    R语言可以进行Web数据抓取,R有若干用于抓取网络数据的包 quantmod包 quantmod包是R平台用于金融建模的扩展包,主要功能有:从多个数据源获取历史数据、绘制金融数据图表、金融数据图表添加技术指标、计算不同...
  • 一个例子,R语言读取excel表的中文数据,关于excel表的读取请看博客R语言包gdata读取excel文件。setwd("..")#设置工作目录 getwd()#查看工作目录 > a("watermelon.xlsx",sheet=1,header =T) > a 缂栧彿 鑹叉辰 鏍硅...
  • 在R语言中安装xlsx包并读取excel数据

    万次阅读 2019-02-09 22:17:44
    文章目录安装Java安装rJava和xlsx读取excel数据 安装Java 查看电脑的系统,32位,还是64位 进入oracle官网,找到JDK,下载 双击jdk进行安装 注意:jdk路径:使用默认路径 jre路径:可以自行更改。 下载地址:...
  • 本教程将一步一步的展示如何安装 R 和 Bioconductor,通过 GEO 数据库下载芯片数据, 对数据进行标准化,然后对数据进行质控检查,最后查找差异表达的基因。教程示例安装的各种依赖包和运行命令均是是 Ubuntu 环境...
  • 如何matlab中打开一个.dat文件,并载入数据

    万次阅读 多人点赞 2015-03-10 12:26:10
    方法一:fscanf函数  fid=fopen('data.dat'... %打开数据文件  x=fscanf(fid,'%g'); %读取文件数据   %得到的x数据为列向量  要注意的是,data.dat必须是你操作的目录下   方法二:load函数  load('xxx.dat')
  • R语言处理气象数据:NetCDF格式数据的读写

    万次阅读 多人点赞 2017-10-21 19:11:50
    在R中处理这类数据,可以用ncdf包或ncdf4包,最近把R更新为3.3.2版本后发现ncdf包不支持了,只能用ncdf4包,用法差不多,这里记录一下。 常用函数: nc_open 打开.nc文档 nc_close 关闭.nc文档 nc_create 新建...
  • R语言中plyr包 前言   apply族函数是R语言中很有特色的一类函数,包括了apply、sapply、lapply、tapply、aggregate等等。这一类函数本质上是将数据进行分割、计算和整合。它们在数据分析的各个阶段都有很好...
  • R语言入门到放弃 R语言读取文件中数据的4方法 方法一:直接读取 &amp;gt; getwd() # 获取当前的工作路径 将要读取的文件剪切到当前的工作路径,下面读取文件 x&amp;lt;-read.table(&quot;text....
  • 数据分析R语言RStudio使用教程

    千次阅读 2020-10-16 15:11:38
     此大数据分析R语言RStudio使用教程文章,我们将介绍RStudio免费版本的一些最佳功能:RStudio Desktop。我们收集了一些RStudio的重要技巧,窍门和快捷方式,可快速将您变成RStudio高级用户!  1.窗口窗格...
  • R语言中合并CSV格式数据失败的解决经验 失败过程(R初学者的泪):将现有的两个数据集转为CSV格式后,进行合并。由于合并变量“ID” “year”两个数据集中大小写不同,为了统一变量名,我就打开csv进行修改并保存...
  • .nc数据打开方式

    2018-03-13 09:32:49
    ArcGIS转换.nc数据不成功后可以用此R语言的方式打开
  • Rstudio中读取Excel中数据的详细步骤。

    万次阅读 多人点赞 2019-03-15 20:29:07
    简述R语言读取Excel中数据的步骤。 代码命令行操作 A、先安装xlsx的包 library(xlsx) table_test1 &lt;- read.xlsx(“G:/R/mvstats4.xls”,1, encoding=“UTF-8”) 方法二 :图形化界面操作 第一步: 第...
  • "rns" "rns80" "mrt" "mrt80" "smsa" "smsa80" "med" "iq" "kww" "year" "age" "age80" "s" "s80" "expr" "expr80" "tenure" "tenure80" "lw" "lw80" 共20个变量
  • 前面已经介绍过R语言读取excel的方法了,当然读取数据来说,个人还是推荐csv或txt存储(针对小数据量)。大数据量的数据的话建议还是用数据库,此外也可以考虑data.table包读取,这个包也是个神包,后面学习完可能来...
  • R语言中数据框的列名重命名

    万次阅读 2019-04-17 17:34:31
    plyr的rename和dplyr的rename用法是不同的. plyr::rename rename(data, c(old=new)) dplyr::rename rename(data, new = old) Example 比如, 默认的是plyr的rename, 运行下面命令, 会报错: d &amp;lt;...
  • R语言心得说:R语言之xlsx包读写Excel数据

    万次阅读 多人点赞 2019-06-14 17:24:31
    R语言心得说:R语言之xlsx包读写Excel数据 【基础】简单读取excel文件数据read.xlsx 【基础】简单写入数据到excel文件write.xlsx 【进阶】随心所欲读取excel的各种信息createWorkbook、getSheet 【进阶】...
  • R语言获取自带数据

    千次阅读 2020-03-18 16:39:06
    R语言获取软件包里的所有数据集 例如:输入 print(data(package="mlbench")) 输出 Data sets in package ‘mlbench’: BostonHousing Boston Housing Data BostonHousing2 Boston Housing Data Brea...
  • 在R语言中,实现这种方法,我们需要把连续变量进行分段(也叫分箱)然后进行重编码对数据进行分析,这一步很重要,这是为后面的分析做准备。今天我们通过使用R语言自带的CUT函数来演示对数据的分段重编码及数据整理...
  • R语言数据的输入

    2020-02-14 15:33:24
    安装好R语言RStudio、掌握了R语言的6种数据结构之后(如需要欢迎访问本人博客主页学习),进行数据分析的第一步是将合适的数据导入到R语言的工作环境,进而对其进行相应的分析。R语言支持输入数据的方式很多,...
  • R语言数据文件读写

    千次阅读 2018-07-18 12:58:22
    R语言数据储存与读取 1 首先用getwd() 获得当前目录,用setwd("C:/data")设定当前目录 2 数据保存 创建数据框d &gt;d &lt;- data.frame(obs =
  • R语言将数据库数据转换为数据

    千次阅读 2020-02-21 14:59:14
    R语言将数据库数据转换为数据框,str后能直接查看数据库的字段名称
  • 这种方法对数据来源可以是一个Windows记事本或任何其他纯文本编辑器所创建的ASCII格式文件,使用readtable()读取文件返回的是一个数据框,便于R语言的后续操作 比如我们要查看一个名叫 stulnfo.txt 的文件,里面的...
  • (已解决) Mac版 R语言 – 解决含中文的csv文件打开报错 - invalid multibyte string R语言 - 导入含中文标题的csv文件 Mac版 R语言打开有中文标题的csv文件时,遇到如下报错: “Error in make.names(col.names, ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 625,943
精华内容 250,377
关键字:

在r中打开数据