web-dev-qa-db-ja.com

pandasデータフレームの行のパーセンタイルを取得するにはどうすればよいですか?

Example DataFrame Values -  

0     78
1     38
2     42
3     48
4     31
5     89
6     94
7    102
8    122
9    122  

stats.percentileofscore(temp['INCOME'].values, 38, kind='mean')
15.0

stats.percentileofscore(temp['INCOME'].values, 38, kind='strict')
10.0

stats.percentileofscore(temp['INCOME'].values, 38, kind='weak')
20.0

stats.percentileofscore(temp['INCOME'].values, 38, kind='rank')
20.0

temp['INCOME'].rank(pct=True)
1    0.20 (Only showing the 38 value index)

temp['INCOME'].quantile(0.11)
37.93

temp['INCOME'].quantile(0.12)
38.31999999999999

Based on the results above, you can see none of the methods are consistent
with the pd.quantiles() method.

データフレームの各行(255M行)の1列のパーセンタイルを取得する必要がありますが、 「線形補間」 メソッドを返す関数/メソッドが見つかりませんpd.quantileおよびnp.percentileで使用します。

私は次のメソッド/関数を試しました-

.rank(pct=True)

このメソッドは、私が探しているパーセンタイルメソッドを使用せずに、順序付けされた値のみを返します。 pd.quantilesと一致しません

scipy.stats.percentileofscore  

この方法は、ほとんど私が探しているものに近いですが、何らかの理由で「線形補間」方法と100%一貫していません。 実際の答えがないこの問題に関連する質問

私はこの質問に関連するすべてのSO回答を調べましたが、どれも使用する必要があるのと同じ補間方法を使用していないので、確認できない限り、これを重複としてマークしないでください彼らは同じ方法を使用しています。

この時点で、私の最後のオプションは、100パーセンタイルすべてのビンのカットオフを見つけてそれを適用するか、線形補間を自分で計算することですが、これは非常に非効率的で、255Mレコードに適用するには永久に時間がかかります。

これを行うための他の提案はありますか?

ありがとう!

7
bbennett36

TL; DR

使用する

_sz = temp['INCOME'].size-1
temp['PCNT_LIN'] = temp['INCOME'].rank(method='max').apply(lambda x: 100.0*(x-1)/sz)

   INCOME    PCNT_LIN
0      78   44.444444
1      38   11.111111
2      42   22.222222
3      48   33.333333
4      31    0.000000
5      89   55.555556
6      94   66.666667
7     102   77.777778
8     122  100.000000
9     122  100.000000
_

回答

力学を理解すれば、それは実際には非常に簡単です。スコアのパーセンタイルを探しているときは、すでに各行にスコアがあります。残っている唯一のステップは、選択した値と少ないか等しい数値のパーセンタイルが必要であることを理解することです。これは正確にどのパラメーターkind = 'weak'of scipy.stats.percentileofscore()およびmethod = 'average'of DataFrame.rank() do。それを逆にするには、Series.quantile()interpolation = 'lower'で実行します。

したがって、scipy.stats.percentileofscore()Series.rank()およびSeries.quantile()の動作は一貫しています下記参照:

_In[]:
temp = pd.DataFrame([  78, 38, 42, 48, 31, 89, 94, 102, 122, 122], columns=['INCOME'])
temp['PCNT_RANK']=temp['INCOME'].rank(method='max', pct=True)
temp['POF']  = temp['INCOME'].apply(lambda x: scipy.stats.percentileofscore(temp['INCOME'], x, kind='weak'))
temp['QUANTILE_VALUE'] = temp['PCNT_RANK'].apply(lambda x: temp['INCOME'].quantile(x, 'lower'))
temp['RANK']=temp['INCOME'].rank(method='max')
sz = temp['RANK'].size - 1 
temp['PCNT_LIN'] = temp['RANK'].apply(lambda x: (x-1)/sz)
temp['CHK'] = temp['PCNT_LIN'].apply(lambda x: temp['INCOME'].quantile(x))

temp

Out[]:
   INCOME  PCNT_RANK    POF  QUANTILE_VALUE  RANK  PCNT_LIN    CHK
0      78        0.5   50.0              78   5.0  0.444444   78.0
1      38        0.2   20.0              38   2.0  0.111111   38.0
2      42        0.3   30.0              42   3.0  0.222222   42.0
3      48        0.4   40.0              48   4.0  0.333333   48.0
4      31        0.1   10.0              31   1.0  0.000000   31.0
5      89        0.6   60.0              89   6.0  0.555556   89.0
6      94        0.7   70.0              94   7.0  0.666667   94.0
7     102        0.8   80.0             102   8.0  0.777778  102.0
8     122        1.0  100.0             122  10.0  1.000000  122.0
9     122        1.0  100.0             122  10.0  1.000000  122.0
_

列_PCNT_RANK_で、列の値INCOMEより小さいか等しい値の比率を取得します。しかし、「補間された」比率が必要な場合は、列_PCNT_LIN_にあります。そして、計算にSeries.rank()を使用すると、かなり高速になり、秒単位で255Mの数値を処理します。


ここでは、linear補間でquantile()を使用して値を取得する方法について説明します。

_temp['INCOME'].quantile(0.11)
37.93
_

データ_temp['INCOME']_には10個の値しかありません。あなたの公式によると Wikiへのリンク 11パーセンタイルのランクは

_rank = 11*(10-1)/100 + 1 = 1.99
_

rankの切り捨てられた部分は1であり、値31に対応し、ランク2の値(つまり、次のビン)は38です。fractionは、rankの小数部分です。これは結果につながります:

_ 31 + (38-31)*(0.99) = 37.93
_

値自体については、fractionの部分をゼロにする必要があるため、逆計算を実行してパーセンタイルを取得するのは非常に簡単です。

_p = (rank - 1)*100/(10 - 1)
_

もっと明確にしてほしい。

12
igrinis

これはうまくいくようです:

A = np.sort(temp['INCOME'].values)
np.interp(sample, A, np.linspace(0, 1, len(A)))

例えば:

>>> temp.INCOME.quantile(np.interp([37.5, 38, 122, 121], A, np.linspace(0, 1, len(A))))
0.103175     37.5
0.111111     38.0
1.000000    122.0
0.883333    121.0
Name: INCOME, dtype: float64

この戦略は、十分な数の値をクエリする場合にのみ意味があることに注意してください。それ以外の場合、並べ替えは非常に高価です。

1
Paul Panzer

以下のデータフレームを考えてみましょう:

DataFrame

pandas Dataframeの列のパーセンタイルを取得するには、次のコードを使用します。

 survey['Nationality'].value_counts(normalize='index')

出力:

米国0.333333

中国0.250000

インド0.250000

バンガデシュ0.166667

名前:国籍、dtype:float64

pandas Dataframeの列のパーセンタイルを別のカテゴリ列に関して取得するために

pd.crosstab(survey.Sex,survey.Handedness,normalize = 'index')

出力は以下のようになります

出力

0