这学期选了一门课,叫 Statistics Test (STAT2912)
讲的是各种奇奇怪怪的 test,包括 parametric test & non-parametric test
并不喜欢这门课,数学里最讨厌的就是统计和概率论了
最初为什么要选这门课啊 ==__== 简直是作死
但现在都第四周了,课也换不了了,只能将就着上了
lecture 也是水的很,总共十几个人,lecturer 也是照着念 slides
于是就打算自己学了,从 Youtube 上找了一系列的 R 视频
地址在这里,同时也记一些笔记,放到这里
这是这个系列笔记的第一篇
R Basic
|
|
if two vectors are of the same length, we may add/subtract/multiply/divide corresponding elements
由“索引”来取值,用方括号表示 [ ], 其中负号代表“除此以外”
关于 Matrix 的一些操纵
Reading File
|
|
其中 read.table(file.choose(), header=T, sep=”\t”) 是读入文件一般格式。
第一个参数是选要读入的文件,一般是 file=””, 然后双引号里写文件目录。也可以直接写 file.choose(), 此时会弹出来一个窗口,允许用户选择文件。
第二个参数是 header,T 代表 TRUE
第三个参数是 sep,代表该文件里的内容是以什么分隔的,“\t” 表示这是一个以 tab 分隔的文件,文件名以 .txt 结尾
也有 sep=”,” 表示以逗号分隔,是 CSV 文件
|
|
head() 会给出数据的前几行
tail() 会给出数据的后几行
LungCapData[-(4:722),] 给出了除第4行到第722行以外的所有数据
names() 给出了各个列的名称
mean(Age) 这一行报错是因为在 R 的内存中并没有 “Age” 这个变量
“Age” 目前还只存在于 LungCapData 这个 Data Set 中
如果想 access “Age”,有两种方法
这是第一种方法,使用 $ 符号来 access 这个变量
值得注意的是,mean(Age) 仍然报错,是因为我们只是 access “Age”
它还没有在 memory 中
另一种方法是把数据 attach 到 memory 中
当我们 attach LungCapData 后,memory 里就有了 LungCapData 对象
此时当我们直接输入 Age 时,就可以 access 它了
同时,也可以使用 detach 语句来清除 memory 中的 LungCapData
使用 class() 语句可以看该数据是什么类型的
如上面的代码,有 numeric, integer, factor … 类型的数据
对于 factor 类型的数据来说,可以使用 level() 语句来看它不同的值
summary() 语句可以给出 data set 的 summary
如 mean, median, max 等基本信息
在上面的代码中,我们给 x 赋值,它是 numeric 的
如果我们想把它当作 factor 来处理,比如 0 代表 false,1 代表 true
可以使用 as.factor() 语句
dim() & length() 给出了数据的 dimension 和长度
在 R 中,可以使用 double equal sign 来判断等式两边是否相等
Age[Gender==”male”] 只用来进行选择的,选择 male,再求 mean
在上面的代码中,dim(FemData) 给出 358 个数据,dim(MaleData) 给出 367 个数据
这与 summary() 给出的信息是一致的
使用 & 进行多项条件的选择
使用 cbind() 语句来 combine 某一列数据和原始的表格
从上面的代码可以看出,表格的最后一列已经多了 FemSmoke 这个部分
最后,可以使用 rm() 语句来抹去 memory 中的变量
ls() 语句选中了所有的变量
此时,memory 中已经没有任何 variable 了