Pandas GroupBy 用法

Pandas GroupBy用法,现在,我们来深入分析GoupBy过程及其工作原理,它的操作模式由三个阶段组成:

  • 分组:将数据集分成多个组
  • 用函数处理:用函数处理每一个组
  • 合并:把不同组得到的结果合并起来

第一阶段,也就是分组阶段,根据给定标准,把SeriesDataFrame数据结构中的数据分成不同的组,分组标准常与索引或某一列具体的元素相关。

第二阶段也称为“用函数处理”,使用函数处理或者执行由函数定义的计算,为每组数组生成单一的值。

第三阶段为合并,把来自每一组的结果汇集到一起,合并成一个新对象。

Pandas GroupBy 用法

GroupBy 实例

Pandas 并没有使用三个函数来表示这个过程,而只使用了groupby()函数,它生成的GroupBy对象是整个过程的核心。通过如下例子来帮助理解,首先定义一个既包含数值又包含字符串的DataFrame对象。

import pandas as pd

df = pd.DataFrame({'color' : ['white', 'red', 'green', 'red', 'green'],
                   'object': ['pen', 'pencil', 'pencil', 'ashtray', 'pen'],
                   'price1': [5.56, 4.20, 1.30, 0.56, 2.75],
                   'price2': [4.75, 4.12, 1.60, 0.75, 3.15]})
print(df)

输出结果如下:
Pandas GroupBy 用法

假如想使用Color列的组标签,计算price1列的均值,你可以先获取到price1列,然后调用groupby()函数,参数指定为color列。

df = pd.DataFrame({'color' : ['white', 'red', 'green', 'red', 'green'],
                   'object': ['pen', 'pencil', 'pencil', 'ashtray', 'pen'],
                   'price1': [5.56, 4.20, 1.30, 0.56, 2.75],
                   'price2': [4.75, 4.12, 1.60, 0.75, 3.15]})
group = df['price1'].groupby(df['color'])
print(group)

输出结果如下:

<pandas.core.groupby.groupby.SeriesGroupBy object at 0x000002107EE089E8>

得到的对象为GroupBy对象,刚进行的操作其实就是分组操作,把含有相同颜色的行分到同一个组中。
可以调用GroupBy对象的group属性,查看DataFrame各行的分组情况,每个组指定好它所包含的行,就可以对每组进行操作获取结果了。

import pandas as pd

df = pd.DataFrame({'color' : ['white', 'red', 'green', 'red', 'green'],
                   'object': ['pen', 'pencil', 'pencil', 'ashtray', 'pen'],
                   'price1': [5.56, 4.20, 1.30, 0.56, 2.75],
                   'price2': [4.75, 4.12, 1.60, 0.75, 3.15]})
group = df['price1'].groupby(df['color'])
print(group.groups)
print(group.mean())
print(group.sum())

输出结果如下:

{'red': Int64Index([1, 3], dtype='int64'), 'white': Int64Index([0], dtype='int64'), 'green': Int64Index([2, 4], dtype='int64')}
color
green    2.025
red      2.380
white    5.560
Name: price1, dtype: float64
color
green    4.05
red      4.76
white    5.56
Name: price1, dtype: float64

等级分组

前面介绍了用一列元素作为键为数据分组,同理,也可以使用多列,也就是使用多个键,按照等级关系分组。如下例所示:

import pandas as pd

df = pd.DataFrame({'color' : ['white', 'red', 'green', 'red', 'green'],
                   'object': ['pen', 'pencil', 'pencil', 'ashtray', 'pen'],
                   'price1': [5.56, 4.20, 1.30, 0.56, 2.75],
                   'price2': [4.75, 4.12, 1.60, 0.75, 3.15]})
group = df['price1'].groupby([df['color'], df['object']])
print(group.groups)
print(group.sum())

输出结果如下:

{('white', 'pen'): Int64Index([0], dtype='int64'), ('green', 'pen'): Int64Index([4], dtype='int64'), ('red', 'ashtray'): Int64Index([3], dtype='int64'), ('red', 'pencil'): Int64Index([1], dtype='int64'), ('green', 'pencil'): Int64Index([2], dtype='int64')}
color  object 
green  pen        2.75
       pencil     1.30
red    ashtray    0.56
       pencil     4.20
white  pen        5.56
Name: price1, dtype: float64

我们也可以按照多列数据或整个DataFrame把数据分成几组,如果你不想反复多次使用GroupBy对象,最方便的办法就是一次就把所有的分组依据和计算方法都指定好,无需定义任何中间变量,如下列所示:

import pandas as pd

df = pd.DataFrame({'color' : ['white', 'red', 'green', 'red', 'green'],
                   'object': ['pen', 'pencil', 'pencil', 'ashtray', 'pen'],
                   'price1': [5.56, 4.20, 1.30, 0.56, 2.75],
                   'price2': [4.75, 4.12, 1.60, 0.75, 3.15]})
print(df[['price1','price2']].groupby(df['color']).mean())
print(df.groupby(df['color']).mean())

输出结果如下:

       price1  price2
color                
green   2.025   2.375
red     2.380   2.435
white   5.560   4.750
       price1  price2
color                
green   2.025   2.375
red     2.380   2.435
white   5.560   4.750
赞(0)

评论 抢沙发

评论前必须登录!