Python 3.5、sklearnからの前処理
df = quandl.get('WIKI/GOOGL')
X = np.array(df)
X = preprocessing.scale(X)
Preprocessing.scale()アルゴリズムは、データを1つのスケールに配置します。これは、ほとんどスパースなデータセットで役立ちます。簡単に言うと、データは非常に広がっています。たとえば、Xの値は次のようになります。
X = [1、4、400、10000、100000]
スパース性の問題は、非常に偏っている、または統計的にゆがんでいることです。したがって、データをスケーリングすると、すべての値が1つのスケールにまとめられ、スパース性が排除されます。数学的な詳細でどのように機能するかを知ることに関して、これは正規化と標準化の同じ概念に従います。それらを調査して、それがどのように機能するかを詳しく知ることができます。しかし、人生をよりシンプルにするために、sklearnアルゴリズムはあなたのためにすべてを行います!
データをスケーリングすると、すべての値が1つのスケールにまとめられ、スパース性が排除され、正規化と標準化の同じ概念に従います。効果を確認するには、処理の前後にデータフレームでdescribeを呼び出します。
df.describe()
#with X is already pre-proccessed
df2 = pandas.DataFrame(X)
df2.describe()
各フィールドにdf2の平均と標準の1の変動があることがわかります。