リサンプリングエラー：メソッドまたは制限を使用して、一意でないインデックスのインデックスを再作成できません

Question

Pandasを使用してデータを構造化および処理しています。

ここに、インデックス、ID、ビットレートとして日付を含むDataFrameがあります。データをIDでグループ化し、同時に、すべてのIDに関連する日付をリサンプリングして、最終的にビットレートスコアを維持したいと思います。

たとえば、与えられた：

df = pd.DataFrame( {'Id' : ['CODI126640013.ts', 'CODI126622312.ts'], 'beginning_time':['2016-07-08 02:17:42', '2016-07-08 02:05:35'], 'end_time' :['2016-07-08 02:17:55', '2016-07-08 02:26:11'], 'bitrate': ['3750000', '3750000'], 'type' : ['vod', 'catchup'], 'unique_id' : ['f2514f6b-ce7e-4e1a-8f6a-3ac5d524be30', 'f2514f6b-ce7e-4e1a-8f6a-3ac5d524bb22']})

これは：

これは、IDとビットレートのたびに日付の一意の列を取得するための私のコードです：

df = df.drop(['type', 'unique_id'], axis=1) df.beginning_time = pd.to_datetime(df.beginning_time) df.end_time = pd.to_datetime(df.end_time) df = pd.melt(df, id_vars=['Id','bitrate'], value_name='dates').drop('variable', axis=1) df.set_index('dates', inplace=True)

これは：

そして今、リサンプルの時間です！これは私のコードです：

print (df.groupby('Id').resample('1S').ffill())

そしてこれが結果です：

これがまさに私がやりたいことです！同じ列のログが38279あり、同じことをするとエラーメッセージが表示されます。最初の部分は完全に機能し、これを提供します：

部分（df.groupby（ 'Id'）。resample（ '1S'）。ffill（））はこのエラーメッセージを表示します：

ValueError: cannot reindex a non-unique index with a method or limit

何か案は？ Thnx！

jezrael · Accepted Answer

列の重複に問題があるようですbeginning_timeおよびend_time、私はそれをシミュレートしてみます：

df = pd.DataFrame( {'Id' : ['CODI126640013.ts', 'CODI126622312.ts', 'a'], 'beginning_time':['2016-07-08 02:17:42', '2016-07-08 02:17:42', '2016-07-08 02:17:45'], 'end_time' :['2016-07-08 02:17:42', '2016-07-08 02:17:42', '2016-07-08 02:17:42'], 'bitrate': ['3750000', '3750000', '444'], 'type' : ['vod', 'catchup', 's'], 'unique_id':['f2514f6b-ce7e-4e1a-8f6a-3ac5d524be30', 'f2514f6b-ce7e-4e1a-8f6a-3ac5d524bb22','w']}) print (df) Id beginning_time bitrate end_time \ 0 CODI126640013.ts 2016-07-08 02:17:42 3750000 2016-07-08 02:17:42 1 CODI126622312.ts 2016-07-08 02:17:42 3750000 2016-07-08 02:17:42 2 a 2016-07-08 02:17:45 444 2016-07-08 02:17:42 type unique_id 0 vod f2514f6b-ce7e-4e1a-8f6a-3ac5d524be30 1 catchup f2514f6b-ce7e-4e1a-8f6a-3ac5d524bb22 2 s w

df = df.drop(['type', 'unique_id'], axis=1) df.beginning_time = pd.to_datetime(df.beginning_time) df.end_time = pd.to_datetime(df.end_time) df = pd.melt(df, id_vars=['Id','bitrate'], value_name='dates').drop('variable', axis=1) df.set_index('dates', inplace=True) print (df) Id bitrate dates 2016-07-08 02:17:42 CODI126640013.ts 3750000 2016-07-08 02:17:42 CODI126622312.ts 3750000 2016-07-08 02:17:45 a 444 2016-07-08 02:17:42 CODI126640013.ts 3750000 2016-07-08 02:17:42 CODI126622312.ts 3750000 2016-07-08 02:17:42 a 444 print (df.groupby('Id').resample('1S').ffill())

ValueError：メソッドまたは制限を使用して一意でないインデックスのインデックスを再作成することはできません

考えられる解決策の1つは、追加です drop_duplicates そして古い way をresampleとgroupbyに使用します：

df = df.drop(['type', 'unique_id'], axis=1) df.beginning_time = pd.to_datetime(df.beginning_time) df.end_time = pd.to_datetime(df.end_time) df = pd.melt(df, id_vars=['Id','bitrate'], value_name='dates').drop('variable', axis=1) print (df.groupby('Id').apply(lambda x : x.drop_duplicates('dates') .set_index('dates') .resample('1S') .ffill())) Id bitrate Id dates CODI126622312.ts 2016-07-08 02:17:42 CODI126622312.ts 3750000 CODI126640013.ts 2016-07-08 02:17:42 CODI126640013.ts 3750000 a 2016-07-08 02:17:41 a 444 2016-07-08 02:17:42 a 444 2016-07-08 02:17:43 a 444 2016-07-08 02:17:44 a 444 2016-07-08 02:17:45 a 444

boolean indexing ：

print (df[df.beginning_time == df.end_time]) 2 s w Id beginning_time bitrate end_time \ 0 CODI126640013.ts 2016-07-08 02:17:42 3750000 2016-07-08 02:17:42 1 CODI126622312.ts 2016-07-08 02:17:42 3750000 2016-07-08 02:17:42 type unique_id 0 vod f2514f6b-ce7e-4e1a-8f6a-3ac5d524be30 1 catchup f2514f6b-ce7e-4e1a-8f6a-3ac5d524bb22