生信分析、meta分析、数据挖掘
TCGA、GEO、SEER、Oncomine

使用dplyr进行数据清洗和整理:R语言实践

Rdplyr可用于处理R内部或者外部的结构化数据,相较于plyr包,dplyr专注接受dataframe对象大幅提高了速度,并且提供了更稳健的数据库接口。同时,dplyr包可用于操作Sparkdataframe。本文只是基础的dplyr包学习笔记,所以并不会讨论一些高级应用,或者与data.table包的性能比较。


library(dplyr)  

#调用dplyr包
View(cancer3)

#查看数据,为APACHE2评分预测肿瘤危重症患者预后的数据集
surdata=filter(cancer3,cancer3$`ICU survival`==1)
surdata

#筛选数据,筛选ICU存活的患者
surdata=filter(cancer3,cancer3$`ICU survival`==1& cancer3$Gender==2)
surdata

#筛选ICU存活以及性别为男性的患者
arrdata=arrange(cancer3,cancer3$`APACHE II on admission`)
arrdata
View(arrdata)

#按照APACHE2进行排序select(cancer3,-3)
select(cancer3,2:5)
select(cancer3,3,20)

#选择第2至第5列数据;或者第3列以及第20列数据
mutate(cancer3,ph=cancer3$`Platelets on admission`/cancer3$`Hct on admission`)

#生成新的变量
summarise(cancer3,meanapa=mean(cancer3$`APACHE II on admission`))

#计算均值
bygroup=group_by(cancer3,cancer3$`ICU survival`)
sumdata=summarise(bygroup,num=n(),meandata=mean(cancer3$`APACHE II on admission`),sddata=sd(cancer3$`APACHE II on admission`))
sumdata

#分组描述均值以及标准差


赞(0) 打赏
未经允许不得转载:医学SCI科研之家 » 使用dplyr进行数据清洗和整理:R语言实践
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

meta分析、生信分析

meta、生信交流群综合科研交流群