PythonのR's NAと同等のものは何ですか?
具体的には、RにはNaN、NA、NULL、Inf、および-Infがあります。一般的に、データが欠落している場合にNAが使用されます。 Pythonの同等のものは何ですか?
Numpyやpandasなどのライブラリは、欠損値をどのように処理しますか?
Scikit-learnは欠損値をどのように処理しますか?
python 2.7とpython 3?
Scikit-learnは現在、欠損値を処理しません。ほとんどの機械学習アルゴリズムでは、欠損値の処理方法が不明であるため、アルゴリズムに値を渡す前にユーザーが処理する必要があります。 Numpyには「欠損値」はありません。 PandasはNaNを使用しますが、混乱を招く可能性のある数値アルゴリズムの内部です。マスク配列を使用することは可能ですが、scikit-learn(まだ)では行いません。
numpyのnan
は、多くの関数で適切に処理されます。
>>> import numpy as np
>>> a = [1, np.nan, 2, 3]
>>> np.nanmean(a)
2.0
>>> np.nansum(a)
6.0
>>> np.isnan(a)
array([False, True, False, False], dtype=bool)
pandas
についてはこれを見てください。
http://pandas.pydata.org/pandas-docs/dev/missing_data.html
pandasはNaN
を使用します。 isnull()
またはnot null()
を使用してnull値をテストし、dropna()
などを使用してデータフレームからそれらを削除できます。datetime
オブジェクトの同等物はNaT