NumPyで累積分布関数を取得する方法は？

Question

NumPyでCDFを作成したいのですが、私のコードは次のとおりです。

histo = np.zeros(4096, dtype = np.int32) for x in range(0, width): for y in range(0, height): histo[data[x][y]] += 1 q = 0 cdf = list() for i in histo: q = q + i cdf.append(q)

私はアレイを歩いていますが、プログラムの実行には時間がかかります。この機能を備えた組み込み関数がありますか？

user545424 · Accepted Answer

あなたのコードが何をしているのか本当に分かりませんが、bin_edgesによって返されるhistおよびnumpy.histogram配列がある場合、numpy.cumsumを使用して、ヒストグラムの内容。

>>> import numpy as np >>> hist, bin_edges = np.histogram(np.random.randint(0,10,100), normed=True) >>> bin_edges array([ 0. , 0.9, 1.8, 2.7, 3.6, 4.5, 5.4, 6.3, 7.2, 8.1, 9. ]) >>> hist array([ 0.14444444, 0.11111111, 0.11111111, 0.1 , 0.1 , 0.14444444, 0.14444444, 0.08888889, 0.03333333, 0.13333333]) >>> np.cumsum(hist) array([ 0.14444444, 0.25555556, 0.36666667, 0.46666667, 0.56666667, 0.71111111, 0.85555556, 0.94444444, 0.97777778, 1.11111111])

Dan · Answer

ヒストグラムを使用することは1つの解決策ですが、データをビニングする必要があります。これは、経験データのCDFをプロットするために必要ではありません。 F(x)をxより小さいエントリ数のカウントとすると、正確に測定値が表示される場所で1つずつ増加します。したがって、サンプルを並べ替える場合、各ポイントでカウントを1（または分数を1/Nずつ）増やし、一方を他方に対してプロットすると、「正確な」（つまり、ビン化されていない）経験的CDFが表示されます。

次のコードサンプルはメソッドを示しています

import numpy as np import matplotlib.pyplot as plt N = 100 Z = np.random.normal(size = N) # method 1 H,X1 = np.histogram( Z, bins = 10, normed = True ) dx = X1[1] - X1[0] F1 = np.cumsum(H)*dx #method 2 X2 = np.sort(Z) F2 = np.array(range(N))/float(N) plt.plot(X1[1:], F1) plt.plot(X2, F2) plt.show()

以下を出力します

enter image description here

Alex · Answer

ダンのソリューションを補完するため。サンプルに複数のidentique値がある場合、numpy.uniqueを使用できます。

Z = np.array([1,1,1,2,2,4,5,6,6,6,7,8,8]) X, F = np.unique(Z, return_index=True) F=F/X.size plt.plot(X, F)

offwhitelotus · Answer

numpyバージョン1.9.0の更新。 user545424の回答は1.9.0では機能しません。これは動作します：

>>> import numpy as np >>> arr = np.random.randint(0,10,100) >>> hist, bin_edges = np.histogram(arr, density=True) >>> hist = array([ 0.16666667, 0.15555556, 0.15555556, 0.05555556, 0.08888889, 0.08888889, 0.07777778, 0.04444444, 0.18888889, 0.08888889]) >>> hist array([ 0.1 , 0.11111111, 0.11111111, 0.08888889, 0.08888889, 0.15555556, 0.11111111, 0.13333333, 0.1 , 0.11111111]) >>> bin_edges array([ 0. , 0.9, 1.8, 2.7, 3.6, 4.5, 5.4, 6.3, 7.2, 8.1, 9. ]) >>> np.diff(bin_edges) array([ 0.9, 0.9, 0.9, 0.9, 0.9, 0.9, 0.9, 0.9, 0.9, 0.9]) >>> np.diff(bin_edges)*hist array([ 0.09, 0.1 , 0.1 , 0.08, 0.08, 0.14, 0.1 , 0.12, 0.09, 0.1 ]) >>> cdf = np.cumsum(hist*np.diff(bin_edges)) >>> cdf array([ 0.15, 0.29, 0.43, 0.48, 0.56, 0.64, 0.71, 0.75, 0.92, 1. ]) >>>