web-dev-qa-db-ja.com

pandas groupby.value_counts()の後のreset_index

列ごとにグループ化し、別の列の値カウントを計算しようとしています。

import pandas as pd
dftest = pd.DataFrame({'A':[1,1,1,1,1,1,1,1,1,2,2,2,2,2], 
               'Amt':[20,20,20,30,30,30,30,40, 40,10, 10, 40,40,40]})

print(dftest)

dftestは次のようになります

    A  Amt
0   1   20
1   1   20
2   1   20
3   1   30
4   1   30
5   1   30
6   1   30
7   1   40
8   1   40
9   2   10
10  2   10
11  2   40
12  2   40
13  2   40

グループ化を実行する

grouper = dftest.groupby('A')
df_grouped = grouper['Amt'].value_counts()

与える

   A  Amt
1  30     4
   20     3
   40     2
2  40     3
   10     2
Name: Amt, dtype: int64

私が望むのは、各グループの上部2行を保持することです

また、reset_indexを試みたときにエラーに困惑しました

df_grouped.reset_index()

次のエラーが発生します

df_grouped.reset_index()ValueError:Amtを挿入できません、すでに存在します

21
muon

name nameはレベルのいずれかの名前と同じであるため、 reset_index のパラメーターSeriesが必要です。 MultiIndexの:

df_grouped.reset_index(name='count')

別の解決策は、 renameSeries name:

print (df_grouped.rename('count').reset_index())

   A  Amt  count
0  1   30      4
1  1   20      3
2  1   40      2
3  2   40      3
4  2   10      2

代わりに、より一般的なソリューションvalue_countsは集約 size です。

df_grouped1 =  dftest.groupby(['A','Amt']).size().rename('count').reset_index()

print (df_grouped1)
   A  Amt  count
0  1   20      3
1  1   30      4
2  1   40      2
3  2   10      2
4  2   40      3
35
jezrael