pandasスクリプト。
実際には、私は2つのcsvファイル(一方の入力ファイルと他方の出力ファイル)で作業しています。 2列のすべての行をコピーして計算を行い、それを別のデータフレーム(出力ファイル)にコピーしたい。
列は次のとおりです。
'lat', 'long','PHCount', 'latOffset_1', 'longOffset_1','PH_Lat_1', 'PH_Long_1', 'latOffset_2', 'longOffset_2', 'PH_Lat_2', 'PH_Long_2', 'latOffset_3', 'longOffset_3','PH_Lat_3', 'PH_Long_3', 'latOffset_4', 'longOffset_4','PH_Lat_4', 'PH_Long_4'.
「lat」列と「latOffset_1」列を取得し、計算を行って、すでに作成した別の新しい列(「PH_Lat_1」)に配置します。
私の機能は:
def calculate_latoffset(latoffset): #Calculating Lat offset.
a=(df2['lat']-(2*latoffset))
return a
メインコード:
for i in range(1,5):
print(i)
a='PH_lat_%d' % i
print (a)
b='latOffset_%d' % i
print (b)
df2.a = df2.apply(lambda x: calculate_latoffset(x[b]), axis=1)
列名は(1,2,3,4)だけ異なるため。だから私は関数calculate_latoffsetを呼び出して、すべての列(PH_Lat_1、PH_Lat_2、PH_Lat_3、PH_Lat_4)のすべての行を一度に計算したい。
上記のコードを使用すると、このエラーが発生します:
basic_conversion.py:46: UserWarning: Pandas doesn't allow columns to be created via a new attribute name - see https://pandas.pydata.org/pandas-docs/stable/indexing.html#attribute-access
df2.a = df2.apply(lambda x: calculate_latoffset(x[b]), axis=1)
出来ますか ?親切に助けてください
単にdf2['a']
の代わりに df2.a
私が考えることができる解決策は、.loc
列を取得します。あなたが試すことができます df.loc[:,a]
の代わりに df.a
。 Pandasデータフレーム属性との潜在的な競合を避けるために、ドットメソッドを使用してデータフレーム列を作成することはできません。
これはエラーではなく警告であるため、コードは引き続き実行できますが、おそらく意図どおりではありません。
短い答え:DataFrameの新しい列を作成するには、属性accessを使用しないでください、正しい方法はを使用することです[]
または.loc
インデックス付け:
>>> df
a b
0 7 6
1 5 8
>>> df['c'] = df.a + df.b
>>> # OR
>>> df.loc[:, 'c'] = df.a + df.b
>>> df # c is an new added column
a b c
0 7 6 13
1 5 8 13
さらに説明すると、SeiresとDataFrameはパンダのコアクラスとデータ構造であり、もちろんそれらはPythonクラスでもあるため、pandas DataFrameとnormal Pythonオブジェクト。しかし、それは 十分に文書化されている であり、簡単に理解できます。
Pythonでは、ユーザーは属性アクセスを使用して、独自のデータ属性をインスタンスオブジェクトに動的に追加できます。
>>> class Dog(object):
... pass
>>> dog = Dog()
>>> vars(dog)
{}
>>> superdog = Dog()
>>> vars(superdog)
{}
>>> dog.legs = 'I can run.'
>>> superdog.wings = 'I can fly.'
>>> vars(dog)
{'legs': 'I can run.'}
>>> vars(superdog)
{'wings': 'I can fly.'}
パンダでは、indexおよびcolumnはデータ構造に密接に関連しているため、アクセスできますシリーズのインデックス、DataFrameの列属性として。
>>> import pandas as pd
>>> import numpy as np
>>> data = np.random.randint(low=0, high=10, size=(2,2))
>>> df = pd.DataFrame(data, columns=['a', 'b'])
>>> df
a b
0 7 6
1 5 8
>>> vars(df)
{'_is_copy': None,
'_data': BlockManager
Items: Index(['a', 'b'], dtype='object')
Axis 1: RangeIndex(start=0, stop=2, step=1)
IntBlock: slice(0, 2, 1), 2 x 2, dtype: int64,
'_item_cache': {}}
ただし、pandas属性アクセスは、主に、シリーズまたは列の既存の要素の読み取りと変更の利便性ですDataFrame。
>>> df.a
0 7
1 5
Name: a, dtype: int64
>>> df.b = [1, 1]
>>> df
a b
0 7 1
1 5 1
また、利便性は完全な機能のトレードオフです。例えば。列名['space bar', '1', 'loc', 'min', 'index']
を使用してDataFrameオブジェクトを作成できますが、属性として有効なPython identifier 1
、 space bar
または既存のメソッド名と競合します。
>>> data = np.random.randint(0, 10, size=(2, 5))
>>> df_special_col_names = pd.DataFrame(data, columns=['space bar', '1', 'loc', 'min', 'index'])
>>> df_special_col_names
space bar 1 loc min index
0 4 4 4 8 9
1 3 0 1 2 3
これらの場合、.loc
、.iloc
、および[]
インデックスは、 定義された方法 で、SeriesおよびDataFrameオブジェクトのインデックスと列に完全にアクセス/操作します。
>>> df_special_col_names['space bar']
0 4
1 3
Name: space bar, dtype: int64
>>> df_special_col_names.loc[:, 'min']
0 8
1 2
Name: min, dtype: int64
>>> df_special_col_names.iloc[:, 1]
0 4
1 0
Name: 1, dtype: int64
トピックについては、ご覧のとおり、DataFrameの新しい列を作成するには、df.c = df.a + df.b
justがコアデータ構造と一緒に新しい属性を作成しました、そのためバージョン0.21.0
以降から、この動作はUserWarning
(無音)を発生させます。
>>> df
a b
0 7 1
1 5 1
>>> df.c = df.a + df.b
__main__:1: UserWarning: Pandas doesn't allow columns to be created via a new attribute name - see https://pandas.pydata.org/pandas-docs/stable/indexing.html#attribute-access
>>> df['d'] = df.a + df.b
>>> df
a b d
0 7 1 8
1 5 1 6
>>> df.c
0 8
1 6
dtype: int64
>>> vars(df)
{'_is_copy': None,
'_data':
BlockManager
Items: Index(['a', 'b', 'd'], dtype='object')
Axis 1: RangeIndex(start=0, stop=2, step=1)
IntBlock: slice(0, 2, 1), 2 x 2, dtype: int64
IntBlock: slice(2, 3, 1), 1 x 2, dtype: int64,
'_item_cache': {},
'c': 0 8
1 6
dtype: int64}
最後に、短い答えに戻ります。
df2.apply(lambda x: calculate_latoffset(x[b]), axis=1)
では、5列のデータフレームを作成しており、単一のフィールドに値を割り当てようとしました。代わりにdf2[a] = calculate_latoffset(df2[b])
が目的の出力を提供する必要があります。