web-dev-qa-db-ja.com

pythonのR's NAと同等のものは何ですか?

PythonのR's NAと同等のものは何ですか?

具体的には、RにはNaN、NA、NULL、Inf、および-Infがあります。一般的に、データが欠落している場合にNAが使用されます。 Pythonの同等のものは何ですか?

Numpyやpandasなどのライブラリは、欠損値をどのように処理しますか?

Scikit-learnは欠損値をどのように処理しますか?

python 2.7とpython 3?

18
power

Scikit-learnは現在、欠損値を処理しません。ほとんどの機械学習アルゴリズムでは、欠損値の処理方法が不明であるため、アルゴリズムに値を渡す前にユーザーが処理する必要があります。 Numpyには「欠損値」はありません。 PandasはNaNを使用しますが、混乱を招く可能性のある数値アルゴリズムの内部です。マスク配列を使用することは可能ですが、scikit-learn(まだ)では行いません。

6
Andreas Mueller

numpyのnanは、多くの関数で適切に処理されます。

>>> import numpy as np
>>> a = [1, np.nan, 2, 3]
>>> np.nanmean(a)
2.0
>>> np.nansum(a)
6.0
>>> np.isnan(a)
array([False,  True, False, False], dtype=bool)
13
N1B4

pandasについてはこれを見てください。

http://pandas.pydata.org/pandas-docs/dev/missing_data.html

pandasはNaNを使用します。 isnull()またはnot null()を使用してnull値をテストし、dropna()などを使用してデータフレームからそれらを削除できます。datetimeオブジェクトの同等物はNaT

5
JAB