R语言数据操作和清洗包dplyr

核心功能

筛选数据 (filter()): 根据条件筛选出数据集中的一部分行。
排序数据 (arrange()): 按一个或多个变量对数据集的行进行排序。
选择变量 (select()): 选取数据集中的一部分列。
变换数据 (mutate()): 添加新的变量或修改现有变量。
汇总数据 (summarise() or summarize()): 对数据集进行汇总，通常与group_by()结合使用来进行分组汇总。
分组操作 (group_by()): 对数据集进行分组，使得可以对每个组独立进行汇总、变换等操作。

示例

library(dplyr)

# 筛选出最高气温超过30度的日子
hot_days <- df %>% filter(max_temp > 30)

# 计算平均最高气温和最低气温
average_temps <- df %>% summarise(
  avg_max_temp = mean(max_temp),
  avg_min_temp = mean(min_temp)
)

# 对数据按照最高气温降序排列
sorted_df <- df %>% arrange(desc(max_temp))

# 添加一个新列，表示温差
df_with_diff <- df %>% mutate(temp_diff = max_temp - min_temp)

# 对数据按月份分组，然后计算每个月的平均最高气温
monthly_avg_temp <- df %>% 
  group_by(month(date)) %>% 
  summarise(avg_max_temp = mean(max_temp))

dplyr函数通常与%>%一起使用，这使得代码更易于阅读和理解。
使用group_by()分组后进行的操作会被应用到每个分组上，直到使用ungroup()解除分组。
dplyr的设计目标是易用性和性能，它底层使用了**C++**来提高效率，特别是在处理大数据集时。

bajiu

R语言数据操作和清洗包dplyr

核心功能

示例