パンダデータフレーム列からリストを取得

Question

このようなExcel文書があります。

cluster load_date budget actual fixed_price A 1/1/2014 1000 4000 Y A 2/1/2014 12000 10000 Y A 3/1/2014 36000 2000 Y B 4/1/2014 15000 10000 N B 4/1/2014 12000 11500 N B 4/1/2014 90000 11000 N C 7/1/2014 22000 18000 N C 8/1/2014 30000 28960 N C 9/1/2014 53000 51200 N

1列目 - clusterの内容をリストとして返すことができるようにしたいので、そのためにforループを実行し、すべてのクラスターに対してExcelワークシートを作成できます。

行全体の内容をリストに戻すことも可能ですか？例えば.

list = [], list[column1] or list[df.ix(row1)]

Ben · Accepted Answer

Pandas DataFrameカラムを取り出すと、Pandasシリーズになります。これをx.tolist() onと呼び、それらをPythonリストに変えることができます。あるいは、list(x)を使ってキャストします。

import pandas as pd d = {'one' : pd.Series([1., 2., 3.], index=['a', 'b', 'c']), 'two' : pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])} df = pd.DataFrame(d) print("Starting with this dataframe
", df) print("The first column is a", type(df['one']), "
consisting of
", df['one']) dfToList = df['one'].tolist() dfList = list(df['one']) dfValues = df['one'].values print("dfToList is", dfToList, "and it's a", type(dfToList)) print("dfList is ", dfList, "and it's a", type(dfList)) print("dfValues is", dfValues, "and it's a", type(dfValues))

最後の行が返されます。

dfToList is [1.0, 2.0, 3.0, nan] and it's a <class 'list'> dfList is [1.0, 2.0, 3.0, nan] and it's a <class 'list'> dfValues is [ 1. 2. 3. nan] and it's a <class 'numpy.ndarray'>

この質問は役に立つかもしれません。そして Pandasのドキュメントはあなたが彼らのスタイルに慣れれば実際にはかなり良いものです。

だからあなたの場合あなたはできる：

my_list = df["cluster"].tolist()

そしてそこから行きます。

Anirudh Bandi · Answer

これは派手な配列を返します。

my_list = df["cluster"].values

これは、 unique valuesのテンキーな配列を返します。

my_list = df["cluster"].values uniqueVals = np.unique(my_list)

あるいは、

uniqueVals = df["cluster"].unique()

Harvey · Answer

変換例：

Numpy配列 - > Panda Data Frame - > 1つのPandaカラムからのリスト

ヌーピーアレイ

data = np.array([[10,20,30], [20,30,60], [30,60,90]])

Numpy配列をPandaフレームに変換

data = np.array([[10,20,30], [20,30,60], [30,60,90]]) dataPd = pd.DataFrame(data = data) print(dataPd) 0 1 2 0 10 20 30 1 20 30 60 2 30 60 90

1つのPanda Frameをリストに変換

pdToList = list(dataPd['2'])

証明としてリストを繰り返す

 for counter, value in enumerate(pdToList): print(counter, value) 0 90 1 60 2 30

Markus Dutschke · Answer

この質問が多くの注目を集め、あなたの仕事を達成するためのいくつかの方法があるので、いくつかのオプションを紹介させてください。

ところで、これらはすべてワンライナーです;）

で始まります：

df cluster load_date budget actual fixed_price 0 A 1/1/2014 1000 4000 Y 1 A 2/1/2014 12000 10000 Y 2 A 3/1/2014 36000 2000 Y 3 B 4/1/2014 15000 10000 N 4 B 4/1/2014 12000 11500 N 5 B 4/1/2014 90000 11000 N 6 C 7/1/2014 22000 18000 N 7 C 8/1/2014 30000 28960 N 8 C 9/1/2014 53000 51200 N

潜在的な操作の概要：

ser_aggCol (collapse each column to a list) cluster [A, A, A, B, B, B, C, C, C] load_date [1/1/2014, 2/1/2014, 3/1/2... budget [1000, 12000, 36000, 15000... actual [4000, 10000, 2000, 10000,... fixed_price [Y, Y, Y, N, N, N, N, N, N] dtype: object ser_aggRows (collapse each row to a list) 0 [A, 1/1/2014, 1000, 4000, Y] 1 [A, 2/1/2014, 12000, 10000... 2 [A, 3/1/2014, 36000, 2000, Y] 3 [B, 4/1/2014, 15000, 10000... 4 [B, 4/1/2014, 12000, 11500... 5 [B, 4/1/2014, 90000, 11000... 6 [C, 7/1/2014, 22000, 18000... 7 [C, 8/1/2014, 30000, 28960... 8 [C, 9/1/2014, 53000, 51200... dtype: object df_gr (here you get lists for each cluster) load_date budget actual fixed_price cluster A [1/1/2014, 2/1/2014, 3/1/2... [1000, 12000, 36000] [4000, 10000, 2000] [Y, Y, Y] B [4/1/2014, 4/1/2014, 4/1/2... [15000, 12000, 90000] [10000, 11500, 11000] [N, N, N] C [7/1/2014, 8/1/2014, 9/1/2... [22000, 30000, 53000] [18000, 28960, 51200] [N, N, N] a list of separate dataframes for each cluster df for cluster A cluster load_date budget actual fixed_price 0 A 1/1/2014 1000 4000 Y 1 A 2/1/2014 12000 10000 Y 2 A 3/1/2014 36000 2000 Y df for cluster B cluster load_date budget actual fixed_price 3 B 4/1/2014 15000 10000 N 4 B 4/1/2014 12000 11500 N 5 B 4/1/2014 90000 11000 N df for cluster C cluster load_date budget actual fixed_price 6 C 7/1/2014 22000 18000 N 7 C 8/1/2014 30000 28960 N 8 C 9/1/2014 53000 51200 N just the values of column load_date 0 1/1/2014 1 2/1/2014 2 3/1/2014 3 4/1/2014 4 4/1/2014 5 4/1/2014 6 7/1/2014 7 8/1/2014 8 9/1/2014 Name: load_date, dtype: object just the values of column number 2 0 1000 1 12000 2 36000 3 15000 4 12000 5 90000 6 22000 7 30000 8 53000 Name: budget, dtype: object just the values of row number 7 cluster C load_date 8/1/2014 budget 30000 actual 28960 fixed_price N Name: 7, dtype: object ============================== JUST FOR COMPLETENESS ============================== you can convert a series to a list ['C', '8/1/2014', '30000', '28960', 'N'] <class 'list'> you can convert a dataframe to a nested list [['A', '1/1/2014', '1000', '4000', 'Y'], ['A', '2/1/2014', '12000', '10000', 'Y'], ['A', '3/1/2014', '36000', '2000', 'Y'], ['B', '4/1/2014', '15000', '10000', 'N'], ['B', '4/1/2014', '12000', '11500', 'N'], ['B', '4/1/2014', '90000', '11000', 'N'], ['C', '7/1/2014', '22000', '18000', 'N'], ['C', '8/1/2014', '30000', '28960', 'N'], ['C', '9/1/2014', '53000', '51200', 'N']] <class 'list'> the content of a dataframe can be accessed as a numpy.ndarray [['A' '1/1/2014' '1000' '4000' 'Y'] ['A' '2/1/2014' '12000' '10000' 'Y'] ['A' '3/1/2014' '36000' '2000' 'Y'] ['B' '4/1/2014' '15000' '10000' 'N'] ['B' '4/1/2014' '12000' '11500' 'N'] ['B' '4/1/2014' '90000' '11000' 'N'] ['C' '7/1/2014' '22000' '18000' 'N'] ['C' '8/1/2014' '30000' '28960' 'N'] ['C' '9/1/2014' '53000' '51200' 'N']] <class 'numpy.ndarray'>

コード：

# prefix ser refers to pd.Series object # prefix df refers to pd.DataFrame object # prefix lst refers to list object import pandas as pd import numpy as np df=pd.DataFrame([ ['A', '1/1/2014', '1000', '4000', 'Y'], ['A', '2/1/2014', '12000', '10000', 'Y'], ['A', '3/1/2014', '36000', '2000', 'Y'], ['B', '4/1/2014', '15000', '10000', 'N'], ['B', '4/1/2014', '12000', '11500', 'N'], ['B', '4/1/2014', '90000', '11000', 'N'], ['C', '7/1/2014', '22000', '18000', 'N'], ['C', '8/1/2014', '30000', '28960', 'N'], ['C', '9/1/2014', '53000', '51200', 'N'] ], columns=['cluster', 'load_date', 'budget', 'actual', 'fixed_price']) print('df',df, sep='
', end='

') ser_aggCol=df.aggregate(lambda x: [x.tolist()], axis=0).map(lambda x:x[0]) print('ser_aggCol (collapse each column to a list)',ser_aggCol, sep='
', end='


') ser_aggRows=pd.Series(df.values.tolist()) print('ser_aggRows (collapse each row to a list)',ser_aggRows, sep='
', end='


') df_gr=df.groupby('cluster').agg(lambda x: list(x)) print('df_gr (here you get lists for each cluster)',df_gr, sep='
', end='


') lst_dfFiltGr=[ df.loc[df['cluster']==val,:] for val in df['cluster'].unique() ] print('a list of separate dataframes for each cluster', sep='
', end='

') for dfTmp in lst_dfFiltGr: print('df for cluster '+str(dfTmp.loc[dfTmp.index[0],'cluster']),dfTmp, sep='
', end='

') ser_singleColLD=df.loc[:,'load_date'] print('just the values of column load_date',ser_singleColLD, sep='
', end='


') ser_singleCol2=df.iloc[:,2] print('just the values of column number 2',ser_singleCol2, sep='
', end='


') ser_singleRow7=df.iloc[7,:] print('just the values of row number 7',ser_singleRow7, sep='
', end='


') print('='*30+' JUST FOR COMPLETENESS '+'='*30, end='


') lst_fromSer=ser_singleRow7.tolist() print('you can convert a series to a list',lst_fromSer, type(lst_fromSer), sep='
', end='


') lst_fromDf=df.values.tolist() print('you can convert a dataframe to a nested list',lst_fromDf, type(lst_fromDf), sep='
', end='

') arr_fromDf=df.values print('the content of a dataframe can be accessed as a numpy.ndarray',arr_fromDf, type(arr_fromDf), sep='
', end='

')

cs95 が指摘するように、pandasのpandas .values属性よりも他のメソッドを優先する必要がありますバージョン0.24 on こちらをご覧ください。ほとんどの人が（2019年までに）古いバージョンをまだ持っているため、ここで使用します。これは新しい推奨事項をサポートしていません。 print(pd.__version__)でバージョンを確認できます

Natasha · Answer

Excelシートを読んだ後のデータフレームの名前がdfであると仮定すると、空のリスト（例えばdataList）を取り、行ごとにデータフレームを繰り返し、空のリストに次のように追加します。

dataList = [] #empty list for index, row in df.iterrows(): mylist = [row.cluster, row.load_date, row.budget, row.actual, row.fixed_price] dataList.append(mylist)

または、

dataList = [] #empty list for row in df.itertuples(): mylist = [row.cluster, row.load_date, row.budget, row.actual, row.fixed_price] dataList.append(mylist)

いいえ、dataListを出力すると、各行をdataListのリストとして取得します。

未来陆家嘴顶尖的投资人 · Answer

webからの参照を含むもう1つのexample.combineがあります。

import pandas as pd def readcolumn(filename,column): #select sheet name and selct column as index,index_col=0 df = pd.read_Excel(filename,sheetname =0) headername = list(df) print(headername) column_data =df[list(df)[column]].tolist() return column_data