以下のデータフレームでは、重複するcid
値を削除して、df.groupby('date').cid.size()
からの出力がdf.groupby('date').cid.nunique()
からの出力と一致するようにします。
私はこれを見てきました post が、問題に対する確実な解決策を持っているようには見えません。
_df = pd.read_csv('https://raw.githubusercontent.com/108michael/ms_thesis/master/crsp.dime.mpl.df')
df.groupby('date').cid.size()
date
2005 7
2006 237
2007 3610
2008 1318
2009 2664
2010 997
2011 6390
2012 2904
2013 7875
2014 3979
df.groupby('date').cid.nunique()
date
2005 3
2006 10
2007 227
2008 52
2009 142
2010 57
2011 219
2012 99
2013 238
2014 146
Name: cid, dtype: int64
_
私が試したもの:
df.groupby([df['date']]).drop_duplicates(cols='cid')
はこのエラーを示します:_AttributeError: Cannot access callable attribute 'drop_duplicates' of 'DataFrameGroupBy' objects, try using the 'apply' method
_df.groupby(('date').drop_duplicates('cid'))
はこのエラーを示します:_AttributeError: 'str' object has no attribute 'drop_duplicates'
_いくつかの列に基づいて重複を削除するためにgroupbyは必要ありません。代わりにサブセットを指定できます。
df2 = df.drop_duplicates(["date", "cid"])
df2.groupby('date').cid.size()
Out[99]:
date
2005 3
2006 10
2007 227
2008 52
2009 142
2010 57
2011 219
2012 99
2013 238
2014 146
dtype: int64