核心功能
- 筛选数据 (
filter()
): 根据条件筛选出数据集中的一部分行。
- 排序数据 (
arrange()
): 按一个或多个变量对数据集的行进行排序。
- 选择变量 (
select()
): 选取数据集中的一部分列。
- 变换数据 (
mutate()
): 添加新的变量或修改现有变量。
- 汇总数据 (
summarise()
or summarize()
): 对数据集进行汇总,通常与group_by()
结合使用来进行分组汇总。
- 分组操作 (
group_by()
): 对数据集进行分组,使得可以对每个组独立进行汇总、变换等操作。
示例
library(dplyr)
# 筛选出最高气温超过30度的日子
hot_days <- df %>% filter(max_temp > 30)
# 计算平均最高气温和最低气温
average_temps <- df %>% summarise(
avg_max_temp = mean(max_temp),
avg_min_temp = mean(min_temp)
)
# 对数据按照最高气温降序排列
sorted_df <- df %>% arrange(desc(max_temp))
# 添加一个新列,表示温差
df_with_diff <- df %>% mutate(temp_diff = max_temp - min_temp)
# 对数据按月份分组,然后计算每个月的平均最高气温
monthly_avg_temp <- df %>%
group_by(month(date)) %>%
summarise(avg_max_temp = mean(max_temp))
dplyr
函数通常与%>%
一起使用,这使得代码更易于阅读和理解。
- 使用
group_by()
分组后进行的操作会被应用到每个分组上,直到使用ungroup()
解除分组。
dplyr
的设计目标是易用性和性能,它底层使用了**C++**来提高效率,特别是在处理大数据集时。