Rのdata.tableがパンダよりもはるかに高速なのはなぜですか？

Question

1200万行のデータセットがあり、一意の識別子として3つの列と値を持つ別の2つの列があります。私はかなり単純なタスクを実行しようとしています：
-3つの識別子でグループ化します。これにより、約260万の一意の組み合わせが生成されます
-タスク1：列Val1の中央値を計算します
-タスク2：Val1にいくつかの条件を指定して、列Val2の平均を計算します

pandasとdata.tableを使用した私の結果は次のとおりです（現在両方の最新バージョンが同じマシン上にあります）。

+-----------------+-----------------+------------+ | | pandas | data.table | +-----------------+-----------------+------------+ | TASK 1 | 150 seconds | 4 seconds | | TASK 1 + TASK 2 | doesn't finish | 5 seconds | +-----------------+-----------------+------------+

pandas-Grp1とGrp2をカテゴリに変換しても、.aggの切り替えがうまくいかなかったおよび.apply。何かアイデアはありますか？

以下は再現可能なコードです。
データフレーム生成：

import numpy as np import pandas as pd from collections import OrderedDict import time np.random.seed(123) list1 = list(pd.util.testing.rands_array(10, 750)) list2 = list(pd.util.testing.rands_array(10, 700)) list3 = list(np.random.randint(100000,200000,5)) N = 12 * 10**6 # please make sure you have enough RAM df = pd.DataFrame({'Grp1': np.random.choice(list1, N, replace = True), 'Grp2': np.random.choice(list2, N, replace = True), 'Grp3': np.random.choice(list3, N, replace = True), 'Val1': np.random.randint(0,100,N), 'Val2': np.random.randint(0,10,N)}) # this works and shows there are 2,625,000 unique combinations df_test = df.groupby(['Grp1','Grp2','Grp3']).size() print(df_test.shape[0]) # 2,625,000 rows # export to feather so that same df goes into R df.to_feather('file.feather')

Pythonのタスク1：

# TASK 1: 150 seconds (sorted / not sorted doesn't seem to matter) df.sort_values(['Grp1','Grp2','Grp3'], inplace = True) t0 = time.time() df_agg1 = df.groupby(['Grp1','Grp2','Grp3']).agg({'Val1':[np.median]}) t1 = time.time() print("Duration for complex: %s seconds ---" % (t1 - t0))

Pythonのタスク1 +タスク2：

# TASK 1 + TASK 2: this kept running for 10 minutes to no avail # (sorted / not sorted doesn't seem to matter) def f(x): d = OrderedDict() d['Median_all'] = np.median(x['Val1']) d['Median_lt_5'] = np.median(x['Val1'][x['Val2'] < 5]) return pd.Series(d) t0 = time.time() df_agg2 = df.groupby(['Grp1','Grp2','Grp3']).apply(f) t1 = time.time() print("Duration for complex: %s seconds ---" % (t1 - t0)) # didn't complete

同等のRコード：

library(data.table) library(feather) DT = setDT(feater("file.feather")) system.time({ DT_agg <- DT[,.(Median_all = median(Val1), Median_lt_5 = median(Val1[Val2 < 5]) ), by = c('Grp1','Grp2','Grp3')] }) # 5 seconds

Brad Miller · Answer

Rの結果を再現できません。羽のつづりを間違えたタイプミスを修正しましたが、以下が表示されます。

Error in `[.data.table`(DT, , .(Median_all = median(Val1), Median_lt_5 = median(Val1[Val2 < : column or expression 1 of 'by' or 'keyby' is type NULL. Do not quote column names. Usage: DT[,sum(colC),by=list(colA,month(colB))]

pythonの例については、Val2が5未満の各グループの中央値を取得する場合は、次のように最初にフィルタリングする必要があります。

 df[df.Val2 < 5].groupby(['Grp1','Grp2','Grp3'])['Val2'].median()

これは、私のMacbook Proでは8秒未満で完了します。