Pandas行インデックスを使用してデータフレームを分割

Question

行インデックスを使用して、データフレームを不均一な行数で分割したいと思います。

以下のコード：

groups = df.groupby((np.arange(len(df.index))/l[1]).astype(int))

一定数の行に対してのみ機能します。

df a b c 1 1 1 2 2 2 3 3 3 4 4 4 5 5 5 6 6 6 7 7 7 l = [2, 5, 7] df1 1 1 1 2 2 2 df2 3,3,3 4,4,4 5,5,5 df3 6,6,6 7,7,7 df4 8,8,8

Scott Boston · Accepted Answer

最初に、リストlを少し修正してリスト内包表記を使用できます。

print(df) a b c 0 1 1 1 1 2 2 2 2 3 3 3 3 4 4 4 4 5 5 5 5 6 6 6 6 7 7 7 7 8 8 8 l = [2,5,7] l_mod = [0] + l + [max(l)+1] list_of_dfs = [df.iloc[l_mod[n]:l_mod[n+1]] for n in range(len(l_mod)-1)]

出力：

list_of_dfs[0] a b c 0 1 1 1 1 2 2 2 list_of_dfs[1] a b c 2 3 3 3 3 4 4 4 4 5 5 5 list_of_dfs[2] a b c 5 6 6 6 6 7 7 7 list_of_dfs[3] a b c 7 8 8 8

Mohit Motwani · Answer

これはあなたが必要とするものだと思います：

df = pd.DataFrame({'a': np.arange(1, 8), 'b': np.arange(1, 8), 'c': np.arange(1, 8)}) df.head() a b c 0 1 1 1 1 2 2 2 2 3 3 3 3 4 4 4 4 5 5 5 5 6 6 6 6 7 7 7 last_check = 0 dfs = [] for ind in [2, 5, 7]: dfs.append(df.loc[last_check:ind-1]) last_check = ind

リスト内包はforループよりもはるかに効率的ですが、インデックスのリストにパターンがない場合は、last_checkが必要です。

dfs[0] a b c 0 1 1 1 1 2 2 2 dfs[2] a b c 5 6 6 6 6 7 7 7

Mohamed Thasin ah · Answer

これはあなたが探しているものだと思います。

l = [2, 5, 7] dfs=[] i=0 for val in l: if i==0: temp=df.iloc[:val] dfs.append(temp) Elif i==len(l): temp=df.iloc[val] dfs.append(temp) else: temp=df.iloc[l[i-1]:val] dfs.append(temp) i+=1

出力：

 a b c 0 1 1 1 1 2 2 2 a b c 2 3 3 3 3 4 4 4 4 5 5 5 a b c 5 6 6 6 6 7 7 7

別の解決策：

l = [2, 5, 7] t= np.arange(l[-1]) l.reverse() for val in l: t[:val]=val temp=pd.DataFrame(t) temp=pd.concat([df,temp],axis=1) for u,v in temp.groupby(0): print v

出力：

 a b c 0 0 1 1 1 2 1 2 2 2 2 a b c 0 2 3 3 3 5 3 4 4 4 5 4 5 5 5 5 a b c 0 5 6 6 6 7 6 7 7 7 7

Mayank Porwal · Answer

これを行う：

l = [2,5,7] c = 0 d = dict() # A dictionary to hold multiple dataframes In [477]: for i in l: ...: if c == 0: ...: index_list = df[df.a <= i].index ...: else: ...: index_list = df[(df.a > l[c-1]) & (df.a <= l[c])].index ...: min_index = index_list[0] ...: max_index = index_list[-1] + 1 ...: d[i] = df.iloc[min_index:max_index] ...: c += 1 ...: In [479]: for key in d.keys(): ...: print(d[key]) ...: a b c 0 1 1 1 1 2 2 2 a b c 2 3 3 3 3 4 4 4 4 5 5 5 a b c 5 6 6 6 6 7 7 7

jpp · Answer

NumPyによるインデックス作成に使用する配列を作成できます。

import pandas as pd, numpy as np df = pd.DataFrame(np.arange(24).reshape((8, 3)), columns=list('abc')) L = [2, 5, 7] idx = np.cumsum(np.in1d(np.arange(len(df.index)), L)) for _, chunk in df.groupby(idx): print(chunk, '
') a b c 0 0 1 2 1 3 4 5 a b c 2 6 7 8 3 9 10 11 4 12 13 14 a b c 5 15 16 17 6 18 19 20 a b c 7 21 22 23

データフレームごとに新しい変数を定義する代わりに、辞書を使用できます。

d = dict(Tuple(df.groupby(idx))) print(d[1]) # print second groupby value a b c 2 6 7 8 3 9 10 11 4 12 13 14