パンダ：groupby 'date'の重複を削除

Question

以下のデータフレームでは、重複するcid値を削除して、df.groupby('date').cid.size()からの出力がdf.groupby('date').cid.nunique()からの出力と一致するようにします。

私はこれを見てきました post が、問題に対する確実な解決策を持っているようには見えません。

_df = pd.read_csv('https://raw.githubusercontent.com/108michael/ms_thesis/master/crsp.dime.mpl.df') df.groupby('date').cid.size() date 2005 7 2006 237 2007 3610 2008 1318 2009 2664 2010 997 2011 6390 2012 2904 2013 7875 2014 3979 df.groupby('date').cid.nunique() date 2005 3 2006 10 2007 227 2008 52 2009 142 2010 57 2011 219 2012 99 2013 238 2014 146 Name: cid, dtype: int64 _

私が試したもの：

df.groupby([df['date']]).drop_duplicates(cols='cid')はこのエラーを示します：_AttributeError: Cannot access callable attribute 'drop_duplicates' of 'DataFrameGroupBy' objects, try using the 'apply' method_
df.groupby(('date').drop_duplicates('cid'))はこのエラーを示します：_AttributeError: 'str' object has no attribute 'drop_duplicates'_

ayhan · Accepted Answer

いくつかの列に基づいて重複を削除するためにgroupbyは必要ありません。代わりにサブセットを指定できます。

df2 = df.drop_duplicates(["date", "cid"]) df2.groupby('date').cid.size() Out[99]: date 2005 3 2006 10 2007 227 2008 52 2009 142 2010 57 2011 219 2012 99 2013 238 2014 146 dtype: int64