【学习笔记】The Analytics Edge 第一周:R语言基础


  • cid:41:privileges:topics:read

    第一周的课程主要介绍了R语言的使用,包括基本的数据格式、操作、和绘图。各类操作总结如下:

    ls(): 列出已申明的变量

    c(): 创建向量, eg:c(2, 3, 5, 8 ),country = c(“Brazil”, “China”, “Germany”)

    Vector[]: 获取向量中的值,eg:test = c(12, 24, 36), 输入test[2],返回24

    seq(): 创建序列, eg:输入seq(0, 10, 2),返回0, 2, 4, 6, 8, 10

    as.numeric(): 将布尔型返回结果转换成数字(0\1),eg:as.numeric(1 > 0) 返回 1

    data.frame(): 创建data frame, eg:frame = data.frame(country, test),frame的值为:
    country test
    Brazil 12
    China 24
    Germany 36

    var1$var2 = c(): 向data frame添加列,eg:frame$test2 = c(1, 2, 3),frame的值改变为:
    country test test2
    Brazil 12 1
    China 24 2
    Germany 36 3

    rbind(): 合并data frame, eg:frame = rbind(frame, frame),frame的值改变为:
    country test
    Brazil 12
    China 24
    Germany 36
    Brazil 12
    China 24
    Germany 36

    names():列出data frame中的变量名,eg:names(frame), 返回“country”,“test”

    nrow():返回data frame有多少行(多少组数据),eg:nrow(frame), 返回 6

    match():返回第一个匹配的数据出现的位置,eg:match(“China”,frame$country), 返回 2

    getwd():显示当前工作目录

    read.csv():从csv文件中读入数据, eg:WHO = read.csv(“WHO.csv”)

    str():显示data frame的结构(多少组数据、每组数据多少个变量、每个变量的名称和类型等),eg: str(WHO)

    summary(): 给出data frame的数值统计信息(变量的计数、平均值、方差等),eg: summary(WHO)

    subset():从data frame中提取子集,eg:WHO_Europe = subset(WHO, Region == “Europe”)

    write.csv(): 将data frame写入csv文件,eg: write.csv(WHO_Europe, “”WHO_Europe.csv”)

    rm():移除变量,eg:rm(WHO_Europe)

    $:访问data fram中的变量,eg:输入frame$test, 返回:12、24、36、12、24、36

    mean():计算平均值,eg:mean(frame$test)

    sd():计算标准差,eg:mean(frame$test)

    which.min():返回最小值的下标,eg:a = c(3,1,4), which.min(a)返回2

    which.max():返回最大值的下标

    plot():绘制scatter plot, eg:plot(WHO$GNI, WHO$FertilityRate)

    hist():绘制直方图,eg:hist(WHO$FertilityRate)

    boxplot():绘制boxplot,eg:boxplot(WHO$LifeExpectency ~ WHO$Region)

    table():统计记录的个数,eg:table(WHO$Region)

    tapply(var1, var2, var3):将第一个参数按第二个参数分组,然后执行第三个参数所代表的操作
    Eg:1. tapply(WHO$Over60, WHO$Region, mean), 变量Over60中的值,按照region计算平均值
    2. tapply(WHO$LiteracyRate, WHO$Region, min, na.rm=TRUE), 变量LiteracyRate中的值,去除NA数据后(去除无记录的数据),按照region分组返回最小值


登录后回复
 

与 BitTiger Community 的连接断开,我们正在尝试重连,请耐心等待