スライスPandas DataFrame by Row

Question

私は、h5ファイルからpandasパッケージを介してhdf = pandas.HDFStore('Survey.h5')として読み込まれた調査データを使用しています。このDataFrame内では、すべての行が列は単一の調査内のすべての質問に対する回答です。

このデータセットを、特定の質問に対する特定の描写された答えを持つ行のみ、つまりこの列にすべて同じ値を持つ行のみを含む、より小さなDataFrameに減らすことを目指しています。この条件ですべての行のインデックス値を決定することはできますが、この行をdeleteにする方法や、これらの行のみで新しいdfを作成する方法を見つけることができません。

Wouter Overmeire · Accepted Answer

In [36]: df Out[36]: A B C D a 0 2 6 0 b 6 1 5 2 c 0 2 6 0 d 9 3 2 2 In [37]: rows Out[37]: ['a', 'c'] In [38]: df.drop(rows) Out[38]: A B C D b 6 1 5 2 d 9 3 2 2 In [39]: df[~((df.A == 0) & (df.B == 2) & (df.C == 6) & (df.D == 0))] Out[39]: A B C D b 6 1 5 2 d 9 3 2 2 In [40]: df.ix[rows] Out[40]: A B C D a 0 2 6 0 c 0 2 6 0 In [41]: df[((df.A == 0) & (df.B == 2) & (df.C == 6) & (df.D == 0))] Out[41]: A B C D a 0 2 6 0 c 0 2 6 0

Akavall · Answer

インデックスがすでにわかっている場合は、.loc：

In [12]: df = pd.DataFrame({"a": [1,2,3,4,5], "b": [4,5,6,7,8]}) In [13]: df Out[13]: a b 0 1 4 1 2 5 2 3 6 3 4 7 4 5 8 In [14]: df.loc[[0,2,4]] Out[14]: a b 0 1 4 2 3 6 4 5 8 In [15]: df.loc[1:3] Out[15]: a b 1 2 5 2 3 6 3 4 7