pandas dataframe：loc vs query performance

Question

pythonに2つのデータフレームがあります。データを照会したいと思います。

DF1：4Mレコードx 3列。クエリ関数は、loc関数よりも効率的にシームします。
DF2：2Kレコードx 6列。 loc関数は、query関数よりもはるかに効率的にシームします。

どちらのクエリも単一のレコードを返します。シミュレーションは、ループ内で同じ操作を10K回実行することによって行われました。

python 2.7 and pandas 0.16.0

クエリ速度を改善するための推奨事項はありますか？

jezrael · Accepted Answer

パフォーマンスを向上させるには、numexprを使用します。

import numexpr np.random.seed(125) N = 40000000 df = pd.DataFrame({'A':np.random.randint(10, size=N)}) def ne(df): x = df.A.values return df[numexpr.evaluate('(x > 5)')] print (ne(df)) In [138]: %timeit (ne(df)) 1 loop, best of 3: 494 ms per loop In [139]: %timeit df[df.A > 5] 1 loop, best of 3: 536 ms per loop In [140]: %timeit df.query('A > 5') 1 loop, best of 3: 781 ms per loop In [141]: %timeit df[df.eval('A > 5')] 1 loop, best of 3: 770 ms per loop

import numexpr np.random.seed(125) def ne(x): x = x.A.values return x[numexpr.evaluate('(x > 5)')] def be(x): return x[x.A > 5] def q(x): return x.query('A > 5') def ev(x): return x[x.eval('A > 5')] def make_df(n): df = pd.DataFrame(np.random.randint(10, size=n), columns=['A']) return df perfplot.show( setup=make_df, kernels=[ne, be, q, ev], n_range=[2**k for k in range(2, 25)], logx=True, logy=True, equality_check=False, xlabel='len(df)')