列の値が特定の範囲内にある2つのデータフレームを結合するにはどうすればよいですか？

Question

2つのデータフレームdf_1およびdf_2が与えられた場合、日付列df_1がデータフレームdf_2のstartとendの間にあるようにそれらを結合する方法：

print df_1 timestamp A B 0 2016-05-14 10:54:33 0.020228 0.026572 1 2016-05-14 10:54:34 0.057780 0.175499 2 2016-05-14 10:54:35 0.098808 0.620986 3 2016-05-14 10:54:36 0.158789 1.014819 4 2016-05-14 10:54:39 0.038129 2.384590 print df_2 start end event 0 2016-05-14 10:54:31 2016-05-14 10:54:33 E1 1 2016-05-14 10:54:34 2016-05-14 10:54:37 E2 2 2016-05-14 10:54:38 2016-05-14 10:54:42 E3

対応するeventを取得します。df1.timestampはdf_2.startとdf2.endの間にあります

 timestamp A B event 0 2016-05-14 10:54:33 0.020228 0.026572 E1 1 2016-05-14 10:54:34 0.057780 0.175499 E2 2 2016-05-14 10:54:35 0.098808 0.620986 E2 3 2016-05-14 10:54:36 0.158789 1.014819 E2 4 2016-05-14 10:54:39 0.038129 2.384590 E3

Bharath M · Accepted Answer

簡単な解決策の1つは、interval indexからstart and endを作成し、closed = bothを作成し、get_locを使用してイベントを取得することです（すべての日付時刻がタイムスタンプdtypeであることに注意してください）

df_2.index = pd.IntervalIndex.from_arrays(df_2['start'],df_2['end'],closed='both') df_1['event'] = df_1['timestamp'].apply(lambda x : df_2.iloc[df_2.index.get_loc(x)]['event'])

出力：

 タイムスタンプABイベント 0 2016-05-14 10:54:33 0.020228 0.026572 E1 1 2016-05-14 10:54:34 0.057780 0.175499 E2 2 2016-05-14 10:54:35 0.098808 0.620986 E2 3 2016-05-14 10:54:36 0.158789 1.014819 E2 4 2016-05-14 10:54:39 0.038129 2.384590 E3

cs95 · Answer

idx = pd.IntervalIndex.from_arrays(df_2['start'], df_2['end'], closed='both') event = df_2.loc[idx.get_indexer(df_1.timestamp), 'event'] event 0 E1 1 E2 1 E2 1 E2 2 E3 Name: event, dtype: object df_1['event'] = event.values df_1 timestamp A B event 0 2016-05-14 10:54:33 0.020228 0.026572 E1 1 2016-05-14 10:54:34 0.057780 0.175499 E2 2 2016-05-14 10:54:35 0.098808 0.620986 E2 3 2016-05-14 10:54:36 0.158789 1.014819 E2 4 2016-05-14 10:54:39 0.038129 2.384590 E3

リファレンス： IntervalIndex.get_indexer.に関する質問

chris dorn · Answer

モジュール pandasql を使用できます

import pandasql as ps sqlcode = ''' select df_1.timestamp ,df_1.A ,df_1.B ,df_2.event from df_1 inner join df_2 on d1.timestamp between df_2.start and df2.end ''' newdf = ps.sqldf(sqlcode,locals())

WeNYoBen · Answer

オプション1

idx = pd.IntervalIndex.from_arrays(df_2['start'], df_2['end'], closed='both') df_2.index=idx df_1['event']=df_2.loc[df_1.timestamp,'event'].values

オプション2

df_2['timestamp']=df_2['end'] pd.merge_asof(df_1,df_2[['timestamp','event']],on='timestamp',direction ='forward',allow_exact_matches =True) Out[405]: timestamp A B event 0 2016-05-14 10:54:33 0.020228 0.026572 E1 1 2016-05-14 10:54:34 0.057780 0.175499 E2 2 2016-05-14 10:54:35 0.098808 0.620986 E2 3 2016-05-14 10:54:36 0.158789 1.014819 E2 4 2016-05-14 10:54:39 0.038129 2.384590 E3

Tai · Answer

このメソッドでは、TimeStampオブジェクトが使用されると想定しています。

_df2 start end event 0 2016-05-14 10:54:31 2016-05-14 10:54:33 E1 1 2016-05-14 10:54:34 2016-05-14 10:54:37 E2 2 2016-05-14 10:54:38 2016-05-14 10:54:42 E3 event_num = len(df2.event) def get_event(t): event_idx = ((t >= df2.start) & (t <= df2.end)).dot(np.arange(event_num)) return df2.event[event_idx] df1["event"] = df1.timestamp.transform(get_event) _

_get_event_の説明

_df1_の各タイムスタンプに対して、たとえば_t0 = 2016-05-14 10:54:33_と言うと、

_(t0 >= df2.start) & (t0 <= df2.end)_には1が含まれます。（例1を参照）。次に、np.arange(event_num)で内積を取り、_t0_が属するイベントのインデックスを取得します。

例：

例1

_ t0 >= df2.start t0 <= df2.end After & np.arange(3) 0 True True -> T 0 event_idx 1 False True -> F 1 -> 0 2 False True -> F 2 _

別の例として_t2 = 2016-05-14 10:54:35_を取る

_ t2 >= df2.start t2 <= df2.end After & np.arange(3) 0 True False -> F 0 event_idx 1 True True -> T 1 -> 1 2 False True -> F 2 _

最後にtransformを使用して、各タイムスタンプをイベントに変換します。