Quiet
  • 主页
  • 归档
  • 分类
  • 标签
  • 链接
  • 关于我

bajiu

  • 主页
  • 归档
  • 分类
  • 标签
  • 链接
  • 关于我
Quiet主题
  • R语言

R语言数据操作和清洗包dplyr

bajiu
生物信息学

2023-03-21 13:25:00

核心功能

  • 筛选数据 (filter()): 根据条件筛选出数据集中的一部分行。
  • 排序数据 (arrange()): 按一个或多个变量对数据集的行进行排序。
  • 选择变量 (select()): 选取数据集中的一部分列。
  • 变换数据 (mutate()): 添加新的变量或修改现有变量。
  • 汇总数据 (summarise() or summarize()): 对数据集进行汇总,通常与group_by()结合使用来进行分组汇总。
  • 分组操作 (group_by()): 对数据集进行分组,使得可以对每个组独立进行汇总、变换等操作。

示例

library(dplyr)

# 筛选出最高气温超过30度的日子
hot_days <- df %>% filter(max_temp > 30)

# 计算平均最高气温和最低气温
average_temps <- df %>% summarise(
  avg_max_temp = mean(max_temp),
  avg_min_temp = mean(min_temp)
)

# 对数据按照最高气温降序排列
sorted_df <- df %>% arrange(desc(max_temp))

# 添加一个新列,表示温差
df_with_diff <- df %>% mutate(temp_diff = max_temp - min_temp)

# 对数据按月份分组,然后计算每个月的平均最高气温
monthly_avg_temp <- df %>% 
  group_by(month(date)) %>% 
  summarise(avg_max_temp = mean(max_temp))
  • dplyr函数通常与%>%一起使用,这使得代码更易于阅读和理解。
  • 使用group_by()分组后进行的操作会被应用到每个分组上,直到使用ungroup()解除分组。
  • dplyr的设计目标是易用性和性能,它底层使用了**C++**来提高效率,特别是在处理大数据集时。
上一篇

使用oro.dicom查看Dicom数据

下一篇

读取RDS数据并作图

©2024 By bajiu.