Example DataFrame Values -
0 78
1 38
2 42
3 48
4 31
5 89
6 94
7 102
8 122
9 122
stats.percentileofscore(temp['INCOME'].values, 38, kind='mean')
15.0
stats.percentileofscore(temp['INCOME'].values, 38, kind='strict')
10.0
stats.percentileofscore(temp['INCOME'].values, 38, kind='weak')
20.0
stats.percentileofscore(temp['INCOME'].values, 38, kind='rank')
20.0
temp['INCOME'].rank(pct=True)
1 0.20 (Only showing the 38 value index)
temp['INCOME'].quantile(0.11)
37.93
temp['INCOME'].quantile(0.12)
38.31999999999999
Based on the results above, you can see none of the methods are consistent
with the pd.quantiles() method.
データフレームの各行(255M行)の1列のパーセンタイルを取得する必要がありますが、 「線形補間」 メソッドを返す関数/メソッドが見つかりませんpd.quantile
およびnp.percentile
で使用します。
私は次のメソッド/関数を試しました-
.rank(pct=True)
このメソッドは、私が探しているパーセンタイルメソッドを使用せずに、順序付けされた値のみを返します。 pd.quantiles
と一致しません
scipy.stats.percentileofscore
この方法は、ほとんど私が探しているものに近いですが、何らかの理由で「線形補間」方法と100%一貫していません。 実際の答えがないこの問題に関連する質問
私はこの質問に関連するすべてのSO回答を調べましたが、どれも使用する必要があるのと同じ補間方法を使用していないので、確認できない限り、これを重複としてマークしないでください彼らは同じ方法を使用しています。
この時点で、私の最後のオプションは、100パーセンタイルすべてのビンのカットオフを見つけてそれを適用するか、線形補間を自分で計算することですが、これは非常に非効率的で、255Mレコードに適用するには永久に時間がかかります。
これを行うための他の提案はありますか?
ありがとう!
使用する
_sz = temp['INCOME'].size-1
temp['PCNT_LIN'] = temp['INCOME'].rank(method='max').apply(lambda x: 100.0*(x-1)/sz)
INCOME PCNT_LIN
0 78 44.444444
1 38 11.111111
2 42 22.222222
3 48 33.333333
4 31 0.000000
5 89 55.555556
6 94 66.666667
7 102 77.777778
8 122 100.000000
9 122 100.000000
_
力学を理解すれば、それは実際には非常に簡単です。スコアのパーセンタイルを探しているときは、すでに各行にスコアがあります。残っている唯一のステップは、選択した値と少ないか等しい数値のパーセンタイルが必要であることを理解することです。これは正確にどのパラメーターkind = 'weak'of scipy.stats.percentileofscore()
およびmethod = 'average'of DataFrame.rank()
do。それを逆にするには、Series.quantile()
をinterpolation = 'lower'で実行します。
したがって、scipy.stats.percentileofscore()
、Series.rank()
およびSeries.quantile()
の動作は一貫しています下記参照:
_In[]:
temp = pd.DataFrame([ 78, 38, 42, 48, 31, 89, 94, 102, 122, 122], columns=['INCOME'])
temp['PCNT_RANK']=temp['INCOME'].rank(method='max', pct=True)
temp['POF'] = temp['INCOME'].apply(lambda x: scipy.stats.percentileofscore(temp['INCOME'], x, kind='weak'))
temp['QUANTILE_VALUE'] = temp['PCNT_RANK'].apply(lambda x: temp['INCOME'].quantile(x, 'lower'))
temp['RANK']=temp['INCOME'].rank(method='max')
sz = temp['RANK'].size - 1
temp['PCNT_LIN'] = temp['RANK'].apply(lambda x: (x-1)/sz)
temp['CHK'] = temp['PCNT_LIN'].apply(lambda x: temp['INCOME'].quantile(x))
temp
Out[]:
INCOME PCNT_RANK POF QUANTILE_VALUE RANK PCNT_LIN CHK
0 78 0.5 50.0 78 5.0 0.444444 78.0
1 38 0.2 20.0 38 2.0 0.111111 38.0
2 42 0.3 30.0 42 3.0 0.222222 42.0
3 48 0.4 40.0 48 4.0 0.333333 48.0
4 31 0.1 10.0 31 1.0 0.000000 31.0
5 89 0.6 60.0 89 6.0 0.555556 89.0
6 94 0.7 70.0 94 7.0 0.666667 94.0
7 102 0.8 80.0 102 8.0 0.777778 102.0
8 122 1.0 100.0 122 10.0 1.000000 122.0
9 122 1.0 100.0 122 10.0 1.000000 122.0
_
列_PCNT_RANK
_で、列の値INCOME
より小さいか等しい値の比率を取得します。しかし、「補間された」比率が必要な場合は、列_PCNT_LIN
_にあります。そして、計算にSeries.rank()
を使用すると、かなり高速になり、秒単位で255Mの数値を処理します。
ここでは、linear
補間でquantile()
を使用して値を取得する方法について説明します。
_temp['INCOME'].quantile(0.11)
37.93
_
データ_temp['INCOME']
_には10個の値しかありません。あなたの公式によると Wikiへのリンク 11パーセンタイルのランクは
_rank = 11*(10-1)/100 + 1 = 1.99
_
rankの切り捨てられた部分は1であり、値31に対応し、ランク2の値(つまり、次のビン)は38です。fraction
は、rankの小数部分です。これは結果につながります:
_ 31 + (38-31)*(0.99) = 37.93
_
値自体については、fraction
の部分をゼロにする必要があるため、逆計算を実行してパーセンタイルを取得するのは非常に簡単です。
_p = (rank - 1)*100/(10 - 1)
_
もっと明確にしてほしい。
これはうまくいくようです:
A = np.sort(temp['INCOME'].values)
np.interp(sample, A, np.linspace(0, 1, len(A)))
例えば:
>>> temp.INCOME.quantile(np.interp([37.5, 38, 122, 121], A, np.linspace(0, 1, len(A))))
0.103175 37.5
0.111111 38.0
1.000000 122.0
0.883333 121.0
Name: INCOME, dtype: float64
この戦略は、十分な数の値をクエリする場合にのみ意味があることに注意してください。それ以外の場合、並べ替えは非常に高価です。
以下のデータフレームを考えてみましょう:
pandas Dataframeの列のパーセンタイルを取得するには、次のコードを使用します。
survey['Nationality'].value_counts(normalize='index')
出力:
米国0.333333
中国0.250000
インド0.250000
バンガデシュ0.166667
名前:国籍、dtype:float64
pandas Dataframeの列のパーセンタイルを別のカテゴリ列に関して取得するために
pd.crosstab(survey.Sex,survey.Handedness,normalize = 'index')
出力は以下のようになります