R是专门用于数据分析和统计的脚本语言,广泛应用在每一个需要统计和数据分析的领域。使用R做数据建模、数据统计和分析是一个发现未知和惊喜的旅程,前提,你必须迈出第一步,去学习R语言。R是一种解释型语言,这意味着代码在运行之前不需要编译,在学习R语言时,首先需要安装R,访问网站 https://www.r-project.org/,下载适合操作系统的R安装包,在Windows操作系统中,请下载(Download R 3.4.2 for Windows);其次,一款好用的IDE,是学习路上的好助手,我推荐使用RStudio,这是一款专门用于R开发的开源集成开发环境(IDE),官方下载地址是:RStudio,RStudion集成了控制台程序(终端),本文通过控制台介绍R的使用。
R是一种区分大小写的解释性语言,R语句的分隔符是分号“;”,或换行符,当语句结束时,可以不使用分号“;”,R语言会自动识别语句结束的位置。R语言只支持单行注释,注释由符号#开头,当前行出现在#之后的任何文本都会被R解释器忽略。R脚本的一次执行叫做一个会话(Session),可以通过函数quit()退出当前的会话,
quit(save = "default", status = 0, runLast = TRUE) q(save = "default", status = 0, runLast = TRUE)
在当前会话中创建的任何R对象(数据、函数、图形等)都保存在内存中。工作空间(WorkSpace)是当前R的工作环境,存储着用户定义的所有对象(向量,矩阵,函数,数据框,列表,函数等)。在一个R会话结束时,用户可以把当前的工作空间保存导一个镜像(image)文件中,并在下次启动R时自动载入。
一,管理工作空间
1,保存工作空间
把工作空间保存到镜像文件中,扩展名默认是.RData。
save.image("myfile")
2,载入工作空间
从镜像文件中读取数据,把工作空间读取到当前的会话中
load("myfile")
3,列出当前工作空间的对象
在当前工作空间中创建的变量都存储在内存中
ls()
4,移除当前工作空间的对象
rm(objectlist)
清理工作空间中所有的内存变量
rm(list=ls())
二,工作目录
工作目录(Working Directory)是R用来读取文件和保存结果的默认目录,如果需要读取一个不在当前工作目录下的文件,则需要在调用语句中写明完整的路径。
1,查看当前的工作目录
getwd()
2,设置当前的工作目录
setwd("mydirectory")
在Windows系统中,R将反斜杠(\)视为一个转移字符,setwd("c:\myfile")会报错,两个反斜杠"\\"代表一个反斜杠,正确的写法是:
setwd("c:/myfile")setwd("c:\\myfile")
三,输入和输出
用户可以执行写在一个脚本文件中的命令,并可以直接把结果输出到不同的目标文件中。
1,执行脚本文件
函数source("file"),在当前会话中执行一个R脚本,如果文件名中不包括路径,R会到当前的工作目录中查找脚本文件。R引擎执行脚本文件之后,把结果保存到内存中,需要重定向输出,才能看到输出的文本或图形。
source("myfile")
2,重定向文件输出
函数sink("file")把输入重定向到文件中,默认情况下,如果文件已经存在,则它的内容会被覆盖。使用参数append=TRUE可以把输出的数据追加到文件的末尾,而不是覆盖。参数split=TRUE,指定把输出同时发送到屏幕和文件中,不加参数调用命令sink(),将仅向屏幕返回输出结果。
sink("file")
3,重定向图形输出
用于保存图形输出的常用函数有如下三个:
bmp("file.bmp")jpeg("file.jpg")pdf("file.pdf")
最后使用dev.off()把图形输出,返回到终端。
四,包
包(Package)是包含R函数,数据等的功能模块,存储包的目录成为库(library),包实质上是实现特定功能的,预先写好的代码库(library),R拥有大量的软件包,许多包都是由某一领域的专家编写的,但并不是所有的包都有很高的质量的,在使用包之前,最好导社区中了解其他网友的反馈。安装包,引用包和卸载包的命令分别是:
install.packages("package-name")library(package-name) remove.packages("package-name")
R自带一系列的默认包,包括base、datasets、utils、grDevices、graphics、stats、以及methods,它们不需要安装,可以直接使用,提供了系统默认的函数和数据集。除了系统默认的包,R引擎还可以加载社区贡献的包,实现更丰富的分析功能。
1,包的安装和更新
一个包仅需安装一次,并可以更新多次。
install.packages("package_name")update.packages("package_name")
2,包的载入
包安装之后,在R会话中使用包之前,必须使用library()命令载入包。
library(package_name)
五,R的控制台操作
在控制台(Console)中输入的任何命令,都被记录下来,用户可以通过上下方向键查看已输入的命令。
通过快捷键Ctrl+L可以清空控制台,但不会清空命令的历史记录。
六,获取帮助
help("function")函数用于查看函数的帮助,引号可以省略,也直接使用?fun来获取帮助:
help("q")?q
如果使用RStudio,可以直接通过Help菜单获取帮助:
七,加载示例数据集
step1,使用data()函数列出当前已经加载包中所有的所有可用示例数据集,例如
->data()
step2,把示例数据集载入到当前的会话中,也就是把dataset_name对应的对象加载到当前会话中,用户可以直接在会话中通过dataset_name直接引用:
>data("dataset_name")>data(dataset_name)