web-dev-qa-db-ja.com

列の値が特定の範囲内にある2つのデータフレームを結合するにはどうすればよいですか?

2つのデータフレームdf_1およびdf_2が与えられた場合、日付列df_1がデータフレームdf_2startendの間にあるようにそれらを結合する方法:

print df_1

  timestamp              A          B
0 2016-05-14 10:54:33    0.020228   0.026572
1 2016-05-14 10:54:34    0.057780   0.175499
2 2016-05-14 10:54:35    0.098808   0.620986
3 2016-05-14 10:54:36    0.158789   1.014819
4 2016-05-14 10:54:39    0.038129   2.384590


print df_2

  start                end                  event    
0 2016-05-14 10:54:31  2016-05-14 10:54:33  E1
1 2016-05-14 10:54:34  2016-05-14 10:54:37  E2
2 2016-05-14 10:54:38  2016-05-14 10:54:42  E3

対応するeventを取得します。df1.timestampdf_2.startdf2.endの間にあります

  timestamp              A          B          event
0 2016-05-14 10:54:33    0.020228   0.026572   E1
1 2016-05-14 10:54:34    0.057780   0.175499   E2
2 2016-05-14 10:54:35    0.098808   0.620986   E2
3 2016-05-14 10:54:36    0.158789   1.014819   E2
4 2016-05-14 10:54:39    0.038129   2.384590   E3
42
DougKruger

簡単な解決策の1つは、interval indexからstart and endを作成し、closed = bothを作成し、get_locを使用してイベントを取得することです(すべての日付時刻がタイムスタンプdtypeであることに注意してください)

df_2.index = pd.IntervalIndex.from_arrays(df_2['start'],df_2['end'],closed='both')
df_1['event'] = df_1['timestamp'].apply(lambda x : df_2.iloc[df_2.index.get_loc(x)]['event'])

出力:

タイムスタンプABイベント
 0 2016-05-14 10:54:33 0.020228 0.026572 E1 
 1 2016-05-14 10:54:34 0.057780 0.175499 E2 
 2 2016-05-14 10:54:35 0.098808 0.620986 E2 
 3 2016-05-14 10:54:36 0.158789 1.014819 E2 
 4 2016-05-14 10:54:39 0.038129 2.384590 E3 
32
Bharath M
idx = pd.IntervalIndex.from_arrays(df_2['start'], df_2['end'], closed='both')
event = df_2.loc[idx.get_indexer(df_1.timestamp), 'event']

event
0    E1
1    E2
1    E2
1    E2
2    E3
Name: event, dtype: object

df_1['event'] = event.values
df_1
            timestamp         A         B event
0 2016-05-14 10:54:33  0.020228  0.026572    E1
1 2016-05-14 10:54:34  0.057780  0.175499    E2
2 2016-05-14 10:54:35  0.098808  0.620986    E2
3 2016-05-14 10:54:36  0.158789  1.014819    E2
4 2016-05-14 10:54:39  0.038129  2.384590    E3

リファレンス: IntervalIndex.get_indexer.に関する質問

17
cs95

モジュール pandasql を使用できます

import pandasql as ps

sqlcode = '''
select df_1.timestamp
,df_1.A
,df_1.B
,df_2.event
from df_1 
inner join df_2 
on d1.timestamp between df_2.start and df2.end
'''

newdf = ps.sqldf(sqlcode,locals())
9
chris dorn

オプション1

idx = pd.IntervalIndex.from_arrays(df_2['start'], df_2['end'], closed='both')
df_2.index=idx
df_1['event']=df_2.loc[df_1.timestamp,'event'].values

オプション2

df_2['timestamp']=df_2['end']
pd.merge_asof(df_1,df_2[['timestamp','event']],on='timestamp',direction ='forward',allow_exact_matches =True)
Out[405]: 
            timestamp         A         B event
0 2016-05-14 10:54:33  0.020228  0.026572    E1
1 2016-05-14 10:54:34  0.057780  0.175499    E2
2 2016-05-14 10:54:35  0.098808  0.620986    E2
3 2016-05-14 10:54:36  0.158789  1.014819    E2
4 2016-05-14 10:54:39  0.038129  2.384590    E3
8
WeNYoBen

このメソッドでは、TimeStampオブジェクトが使用されると想定しています。

_df2  start                end                  event    
   0 2016-05-14 10:54:31  2016-05-14 10:54:33  E1
   1 2016-05-14 10:54:34  2016-05-14 10:54:37  E2
   2 2016-05-14 10:54:38  2016-05-14 10:54:42  E3

event_num = len(df2.event)

def get_event(t):    
    event_idx = ((t >= df2.start) & (t <= df2.end)).dot(np.arange(event_num))
    return df2.event[event_idx]

df1["event"] = df1.timestamp.transform(get_event)
_

_get_event_の説明

_df1_の各タイムスタンプに対して、たとえば_t0 = 2016-05-14 10:54:33_と言うと、

_(t0 >= df2.start) & (t0 <= df2.end)_には1が含まれます。 (例1を参照)。次に、np.arange(event_num)で内積を取り、_t0_が属するイベントのインデックスを取得します。

例:

例1

_    t0 >= df2.start    t0 <= df2.end     After &     np.arange(3)    
0     True                True         ->  T              0        event_idx
1    False                True         ->  F              1     ->     0
2    False                True         ->  F              2
_

別の例として_t2 = 2016-05-14 10:54:35_を取る

_    t2 >= df2.start    t2 <= df2.end     After &     np.arange(3)    
0     True                False        ->  F              0        event_idx
1     True                True         ->  T              1     ->     1
2    False                True         ->  F              2
_

最後にtransformを使用して、各タイムスタンプをイベントに変換します。

4
Tai