Numpy配列からPandas DataFrameを作成する：インデックスカラムとカラムヘッダを指定するにはどうすればいいですか？

Question

リストのリストからなるNumpy配列があります。これは、以下に示すように行ラベルと列名を持つ2次元配列を表します。

data = array([['','Col1','Col2'],['Row1',1,2],['Row2',3,4]])

結果のDataFrameで、インデックス値としてRow1とRow2、ヘッダー値としてCol1とCol2を持つようにします。

次のようにインデックスを指定できます。

df = pd.DataFrame(data,index=data[:,0]),

ただし、列ヘッダーを最適に割り当てる方法がわかりません。

behzad.nouri · Accepted Answer

次のように、 data constructorにindex、columns、およびDataFrameを指定する必要があります。

>>> pd.DataFrame(data=data[1:,1:], # values ... index=data[1:,0], # 1st column as index ... columns=data[0,1:]) # 1st row as the column names

edit ：@jorisコメントのように、正しいデータ型を得るためには上記のnp.int_(data[1:,1:])に変更する必要があるかもしれません。

Jagannath Banerjee · Answer

これは理解しやすい解決策です。

import numpy as np import pandas as pd # Creating a 2 dimensional numpy array data= np.array([[ 5.8,2.8], [ 6.0,2.2]]) print(data) >>> data array([[ 5.8, 2.8], [ 6. , 2.2]]) #Creating pandas dataframe from numpy array dataset = pd.DataFrame({'Column1':data[:,0],'Column2':data[:,1]}) print(dataset) Column1 Column2 0 5.8 2.8 1 6.0 2.2

ryanjdillon · Answer

私はJorisに同意します。でたらめなレコード配列のように、これは違うやり方でやるべきだと思われます。この素晴らしい答えから "option 2"を修正すると、こんな感じになるでしょう：

import pandas import numpy dtype = [('Col1','int32'), ('Col2','float32'), ('Col3','float32')] values = numpy.zeros(20, dtype=dtype) index = ['Row'+str(i) for i in range(1, len(values)+1)] df = pandas.DataFrame(values, index=index)

javadba · Answer

@ behzad.nouriの答えに追加する - この一般的なシナリオを処理するためのヘルパールーチンを作成することができます。

def csvDf(dat,**kwargs): from numpy import array data = array(dat) if data is None or len(data)==0 or len(data[0])==0: return None else: return pd.DataFrame(data[1:,1:],index=data[1:,0],columns=data[0,1:],**kwargs)

試してみましょう。

data = [['','a','b','c'],['row1','row1cola','row1colb','row1colc'], ['row2','row2cola','row2colb','row2colc'],['row3','row3cola','row3colb','row3colc']] csvDf(data) In [61]: csvDf(data) Out[61]: a b c row1 row1cola row1colb row1colc row2 row2cola row2colb row2colc row3 row3cola row3colb row3colc

Aadil Srivastava · Answer

これは、パンダDataFrameのfrom_recordsを使うことで簡単にできます。

import numpy as np import pandas as pd # Creating a numpy array x = np.arange(1,10,1).reshape(-1,1) dataframe = pd.DataFrame.from_records(x)

Rahul Verma · Answer

 >>import pandas as pd >>import numpy as np >>data.shape (480,193) >>type(data) numpy.ndarray >>df=pd.DataFrame(data=data[0:,0:], ... index=[i for i in range(data.shape[0])], ... columns=['f'+str(i) for i in range(data.shape[1])]) >>df.head() [![array to dataframe][1]][1]