私はpandas本質的に時系列であるデータフレームを次のように扱います:
_ level
Date
1976-01-01 409.67
1976-02-01 409.58
1976-03-01 409.66
…
_
私が欲しいのは、次のようにレベル列の複数のインデックス/ヘッダーです:
_ Station1 #Name of the datasource
43.1977317,-4.6473648,5 #Lat/Lon of the source
Precip #Type of data
Date
1976-01-01 409.67
1976-02-01 409.58
1976-03-01 409.66
…
_
したがって、本質的に私は_Mydata.columns.level1 = ['Station1']
_、_Mydata.columns.level2 = [Lat,Lon]
_、_Mydata.columns.level3 = ['Precip']
_のようなものを検索しています。
単一の場所に複数のデータセットを含めることができ、1つの場所からすべてのデータ、またはすべての場所から特定のタイプのすべてのデータを、後続のマージされた大きなデータフレームから選択できるようにするためです。
pandasのドキュメントからサンプルデータフレームを設定して選択をテストできますが、実際のデータを使用して、例のようにインデックスを設定する別の方法が必要です。
例:
小さなデータフレームを構築
_header = [np.array(['location','location','location','location2','location2','location2']),
np.array(['S1','S2','S3','S1','S2','S3'])]
df = pd.DataFrame(np.random.randn(5, 6), index=['a','b','c','d','e'], columns = header )
df
location location2
S1 S2 S3 S1 S2 S3
a -1.469932 -1.544511 -1.373463 -0.317262 0.024832 -0.641000
b 0.047170 -0.339423 1.351253 0.601172 -1.607339 0.035932
c -0.257479 1.140829 0.188291 -0.242490 1.019315 -1.163429
d 0.832949 0.098170 -0.818513 -0.070383 0.557419 -0.489839
e -0.628549 -0.158419 0.366167 -2.319316 -0.474897 -0.319549
_
データタイプまたは場所を選択:
_df.loc(axis=1)[:,'S1']
location location2
S1 S1
a -1.469932 -0.317262
b 0.047170 0.601172
c -0.257479 -0.242490
d 0.832949 -0.070383
e -0.628549 -2.319316
df['location']
S1 S2 S3
a -1.469932 -1.544511 -1.373463
b 0.047170 -0.339423 1.351253
c -0.257479 1.140829 0.188291
d 0.832949 0.098170 -0.818513
e -0.628549 -0.158419 0.366167
_
それとも間違った用語を探しているだけですか?ドキュメント内のすべての例の90%、およびここでの質問は、垂直の「もの」(私の場合は日付またはabcde)のみをインデックスとして扱い、テストデータのクイック_df.index.values
_も垂直を取得するだけなのでarray(['a', 'b', 'c', 'd', 'e'], dtype=object)
。
MultiIndexを使用して、各レベルの名前を持つ複数の列を指定できます。 MultiIndex.from_product()
を使用して、複数の反復可能オブジェクトのデカルト積からmultiIndexを作成します。
header = pd.MultiIndex.from_product([['location1','location2'],
['S1','S2','S3']],
names=['loc','S'])
df = pd.DataFrame(np.random.randn(5, 6),
index=['a','b','c','d','e'],
columns=header)
2つのレベルはlocとSです。
df
loc location1 location2
S S1 S2 S3 S1 S2 S3
a -1.245988 0.858071 -1.433669 0.105300 -0.630531 -0.148113
b 1.132016 0.318813 0.949564 -0.349722 -0.904325 0.443206
c -0.017991 0.032925 0.274248 0.326454 -0.108982 0.567472
d 2.363533 -1.676141 0.562893 0.967338 -1.071719 -0.321113
e 1.921324 0.110705 0.023244 -0.432196 0.172972 -0.50368
これで、xsを使用して、レベルに基づいて日付フレームをスライスできます。
df.xs('location1',level='loc',axis=1)
S S1 S2 S3
a -1.245988 0.858071 -1.433669
b 1.132016 0.318813 0.949564
c -0.017991 0.032925 0.274248
d 2.363533 -1.676141 0.562893
e 1.921324 0.110705 0.02324
df.xs('S1',level='S',axis=1)
loc location1 location2
a -1.245988 0.105300
b 1.132016 -0.349722
c -0.017991 0.326454
d 2.363533 0.967338
e 1.921324 -0.43219