python Pandasで条件付き結合を行う方法は？

Question

私はPandas別のテーブルに保存された日付値に基づいて時間ベースの集計を計算しようとしています。

最初のテーブルtable_aの上部は次のようになります。

 COMPANY_ID DATE MEASURE 1 2010-01-01 00:00:00 10 1 2010-01-02 00:00:00 10 1 2010-01-03 00:00:00 10 1 2010-01-04 00:00:00 10 1 2010-01-05 00:00:00 10

テーブルを作成するコードは次のとおりです。

 table_a = pd.concat(\ [pd.DataFrame({'DATE': pd.date_range("01/01/2010", "12/31/2010", freq="D"),\ 'COMPANY_ID': 1 , 'MEASURE': 10}),\ pd.DataFrame({'DATE': pd.date_range("01/01/2010", "12/31/2010", freq="D"),\ 'COMPANY_ID': 2 , 'MEASURE': 10})])

2番目のテーブルtable_bは次のようになります。

 COMPANY END_DATE 1 2010-03-01 00:00:00 1 2010-06-02 00:00:00 2 2010-03-01 00:00:00 2 2010-06-02 00:00:00

それを作成するコードは次のとおりです。

 table_b = pd.DataFrame({'END_DATE':pd.to_datetime(['03/01/2010','06/02/2010','03/01/2010','06/02/2010']),\ 'COMPANY':(1,1,2,2)})

Table_bのEND_DATEより前の30日間ごとに、各COMPANY_IDのメジャー列の合計を取得できるようにします。

これは（私が思うに）SQLと同等です：

 select b.COMPANY_ID, b.DATE sum(a.MEASURE) AS MEASURE_TO_END_DATE from table_a a, table_b b where a.COMPANY = b.COMPANY and a.DATE < b.DATE and a.DATE > b.DATE - 30 group by b.COMPANY;

助けてくれてありがとう

Karl D. · Accepted Answer

さて、私はいくつかの方法を考えることができます。（1）本質的にcompanyでマージしてデータフレームを爆破し、マージ後30日間のウィンドウでフィルタリングします。これは高速ですが、大量のメモリを使用する可能性があります。（2）30日間のウィンドウでのマージとフィルタリングをgroupbyに移動します。これにより、グループごとにマージが行われるため、速度は遅くなりますが、使用するメモリは少なくなります

オプション＃1

データが次のようになっていると仮定します（サンプルデータを拡張しました）。

print df company date measure 0 0 2010-01-01 10 1 0 2010-01-15 10 2 0 2010-02-01 10 3 0 2010-02-15 10 4 0 2010-03-01 10 5 0 2010-03-15 10 6 0 2010-04-01 10 7 1 2010-03-01 5 8 1 2010-03-15 5 9 1 2010-04-01 5 10 1 2010-04-15 5 11 1 2010-05-01 5 12 1 2010-05-15 5 print windows company end_date 0 0 2010-02-01 1 0 2010-03-15 2 1 2010-04-01 3 1 2010-05-15

30日間のウィンドウの開始日を作成します。

windows['beg_date'] = (windows['end_date'].values.astype('datetime64[D]') - np.timedelta64(30,'D')) print windows company end_date beg_date 0 0 2010-02-01 2010-01-02 1 0 2010-03-15 2010-02-13 2 1 2010-04-01 2010-03-02 3 1 2010-05-15 2010-04-15

マージを実行し、dateがbeg_dateおよびend_dateに含まれるかどうかに基づいて選択します。

df = df.merge(windows,on='company',how='left') df = df[(df.date >= df.beg_date) & (df.date <= df.end_date)] print df company date measure end_date beg_date 2 0 2010-01-15 10 2010-02-01 2010-01-02 4 0 2010-02-01 10 2010-02-01 2010-01-02 7 0 2010-02-15 10 2010-03-15 2010-02-13 9 0 2010-03-01 10 2010-03-15 2010-02-13 11 0 2010-03-15 10 2010-03-15 2010-02-13 16 1 2010-03-15 5 2010-04-01 2010-03-02 18 1 2010-04-01 5 2010-04-01 2010-03-02 21 1 2010-04-15 5 2010-05-15 2010-04-15 23 1 2010-05-01 5 2010-05-15 2010-04-15 25 1 2010-05-15 5 2010-05-15 2010-04-15

companyおよびend_dateでグループ化することにより、30日間のウィンドウの合計を計算できます。

print df.groupby(['company','end_date']).sum() measure company end_date 0 2010-02-01 20 2010-03-15 30 1 2010-04-01 10 2010-05-15 15

オプション＃2すべてのマージをgroupbyに移動します。これはメモリ上ではより良いはずですが、私ははるかに遅いと思うでしょう：

windows['beg_date'] = (windows['end_date'].values.astype('datetime64[D]') - np.timedelta64(30,'D')) def cond_merge(g,windows): g = g.merge(windows,on='company',how='left') g = g[(g.date >= g.beg_date) & (g.date <= g.end_date)] return g.groupby('end_date')['measure'].sum() print df.groupby('company').apply(cond_merge,windows) company end_date 0 2010-02-01 20 2010-03-15 30 1 2010-04-01 10 2010-05-15 15

別のオプションウィンドウが重複しない場合（例のデータのように）、データフレームを爆破せず、非常に高速な代替手段として次のようなことができます：

windows['date'] = windows['end_date'] df = df.merge(windows,on=['company','date'],how='outer') print df company date measure end_date 0 0 2010-01-01 10 NaT 1 0 2010-01-15 10 NaT 2 0 2010-02-01 10 2010-02-01 3 0 2010-02-15 10 NaT 4 0 2010-03-01 10 NaT 5 0 2010-03-15 10 2010-03-15 6 0 2010-04-01 10 NaT 7 1 2010-03-01 5 NaT 8 1 2010-03-15 5 NaT 9 1 2010-04-01 5 2010-04-01 10 1 2010-04-15 5 NaT 11 1 2010-05-01 5 NaT 12 1 2010-05-15 5 2010-05-15

このマージにより、基本的にウィンドウの終了日がデータフレームに挿入され、終了日を（グループごとに）埋め戻すことで、集計ウィンドウを簡単に作成できる構造が得られます。

df['end_date'] = df.groupby('company')['end_date'].apply(lambda x: x.bfill()) print df company date measure end_date 0 0 2010-01-01 10 2010-02-01 1 0 2010-01-15 10 2010-02-01 2 0 2010-02-01 10 2010-02-01 3 0 2010-02-15 10 2010-03-15 4 0 2010-03-01 10 2010-03-15 5 0 2010-03-15 10 2010-03-15 6 0 2010-04-01 10 NaT 7 1 2010-03-01 5 2010-04-01 8 1 2010-03-15 5 2010-04-01 9 1 2010-04-01 5 2010-04-01 10 1 2010-04-15 5 2010-05-15 11 1 2010-05-01 5 2010-05-15 12 1 2010-05-15 5 2010-05-15 df = df[df.end_date.notnull()] df['beg_date'] = (df['end_date'].values.astype('datetime64[D]') - np.timedelta64(30,'D')) print df company date measure end_date beg_date 0 0 2010-01-01 10 2010-02-01 2010-01-02 1 0 2010-01-15 10 2010-02-01 2010-01-02 2 0 2010-02-01 10 2010-02-01 2010-01-02 3 0 2010-02-15 10 2010-03-15 2010-02-13 4 0 2010-03-01 10 2010-03-15 2010-02-13 5 0 2010-03-15 10 2010-03-15 2010-02-13 7 1 2010-03-01 5 2010-04-01 2010-03-02 8 1 2010-03-15 5 2010-04-01 2010-03-02 9 1 2010-04-01 5 2010-04-01 2010-03-02 10 1 2010-04-15 5 2010-05-15 2010-04-15 11 1 2010-05-01 5 2010-05-15 2010-04-15 12 1 2010-05-15 5 2010-05-15 2010-04-15 df = df[(df.date >= df.beg_date) & (df.date <= df.end_date)] print df.groupby(['company','end_date']).sum() measure company end_date 0 2010-02-01 20 2010-03-15 30 1 2010-04-01 10 2010-05-15 15

別の方法として、最初のデータフレームを毎日のデータにリサンプリングしてから、30日間の期間でrolling_sumsを計算します。興味のある最後の日付を選択します。これは、非常に多くのメモリを消費する可能性があります。