2つの既存の列の値に基づいて、既存のdaskデータフレームに新しい列を追加したいと思います。これには、nullをチェックするための条件ステートメントが含まれます。
DataFrame定義
import pandas as pd
import dask.dataframe as dd
df = pd.DataFrame({'x': [1, 2, 3, 4, 5], 'y': [0.2, "", 0.345, 0.40, 0.15]})
ddf = dd.from_pandas(df1, npartitions=2)
方法1を試しました
def funcUpdate(row):
if row['y'].isnull():
return row['y']
else:
return round((1 + row['x'])/(1+ 1/row['y']),4)
ddf = ddf.assign(z= ddf.apply(funcUpdate, axis=1 , meta = ddf))
エラーが発生します:
TypeError: Column assignment doesn't support type DataFrame
方法-2
ddf = ddf.assign(z = ddf.apply(lambda col: col.y if col.y.isnull() else round((1 + col.x)/(1+ 1/col.y),4),axis = 1, meta = ddf))
それがどのように行われるべきかについて何か考えはありますか?
fillna
(高速)を使用するか、apply
(低速ですが柔軟)を使用できます
import pandas as pd
import dask.dataframe as dd
df = pd.DataFrame({'x': [1, 2, 3, 4, 5], 'y': [0.2, None, 0.345, 0.40, 0.15]})
ddf = dd.from_pandas(df, npartitions=2)
ddf['z'] = ddf.y.fillna((100 + ddf.x))
>>> df
x y
0 1 0.200
1 2 NaN
2 3 0.345
3 4 0.400
4 5 0.150
>>> ddf.compute()
x y z
0 1 0.200 0.200
1 2 NaN 102.000
2 3 0.345 0.345
3 4 0.400 0.400
4 5 0.150 0.150
もちろん、この場合、関数はy
を使用するためy
がnullの場合、結果もnullになります。あなたがこれを意図していなかったと思いますので、出力を少し変更しました。
Pandasの専門家が言うように、apply
を使用すると、10倍から100倍の速度低下ペナルティが発生します。注意してください。
そうは言っても、柔軟性は便利です。不適切なメタデータを提供していることを除いて、あなたの例はほとんど機能します。実際、関数が級数を生成することを意図していたと思うのに、関数がデータフレームを生成することを適用するように言っています。 Daskにメタ情報を推測させる(文句を言うでしょうが)か、dtypeを明示的に指定することができます。以下の例に、両方のオプションを示します。
In [1]: import pandas as pd
...:
...: import dask.dataframe as dd
...: df = pd.DataFrame({'x': [1, 2, 3, 4, 5], 'y': [0.2, None, 0.345, 0.40, 0.15]})
...: ddf = dd.from_pandas(df, npartitions=2)
...:
In [2]: def func(row):
...: if pd.isnull(row['y']):
...: return row['x'] + 100
...: else:
...: return row['y']
...:
In [3]: ddf['z'] = ddf.apply(func, axis=1)
/home/mrocklin/Software/anaconda/lib/python3.4/site-packages/dask/dataframe/core.py:2553: UserWarning: `meta` is not specified, inferred from partial data. Please provide `meta` if the result is unexpected.
Before: .apply(func)
After: .apply(func, meta={'x': 'f8', 'y': 'f8'}) for dataframe result
or: .apply(func, meta=('x', 'f8')) for series result
warnings.warn(msg)
In [4]: ddf.compute()
Out[4]:
x y z
0 1 0.200 0.200
1 2 NaN 102.000
2 3 0.345 0.345
3 4 0.400 0.400
4 5 0.150 0.150
In [5]: ddf['z'] = ddf.apply(func, axis=1, meta=float)
In [6]: ddf.compute()
Out[6]:
x y z
0 1 0.200 0.200
1 2 NaN 102.000
2 3 0.345 0.345
3 4 0.400 0.400
4 5 0.150 0.150
Daskの経験はありませんが、ブールテストでは、funcUpdateでその2番目の要素がnullとして検出されません。 pandasのnull値は、 ""ではなくNoneまたはNaN/Nanに等しくなります。
def funcUpdate(row):
try:
return round((1 + row['x'])/(1+ 1/row['y']),4)
except:
return row['y']
考えられる回避策ですが、事前にデータ検証を実行する必要があります。