エントロピーを計算する最も速い方法Python

Question

私のプロジェクトでは、0-1ベクトルのエントロピーを何度も計算する必要があります。ここに私のコードがあります：

def entropy(labels): """ Computes entropy of 0-1 vector. """ n_labels = len(labels) if n_labels <= 1: return 0 counts = np.bincount(labels) probs = counts[np.nonzero(counts)] / n_labels n_classes = len(probs) if n_classes <= 1: return 0 return - np.sum(probs * np.log(probs)) / np.log(n_classes)

もっと速い方法はありますか？

Jarad · Answer

@Sanjeet Guptaの答えは良いですが、凝縮される可能性があります。この質問は「最も速い」方法について具体的に尋ねていますが、1つの答えにしか時間がないので、scipyとnumpyの使用と元のポスターのエントロピー2の答えをわずかに変更して比較して投稿します。

4つの異なるアプローチ：scipy/numpy、numpy/math、pandas/numpy、numpy

_import numpy as np from scipy.stats import entropy from math import log, e import pandas as pd import timeit def entropy1(labels, base=None): value,counts = np.unique(labels, return_counts=True) return entropy(counts, base=base) def entropy2(labels, base=None): """ Computes entropy of label distribution. """ n_labels = len(labels) if n_labels <= 1: return 0 value,counts = np.unique(labels, return_counts=True) probs = counts / n_labels n_classes = np.count_nonzero(probs) if n_classes <= 1: return 0 ent = 0. # Compute entropy base = e if base is None else base for i in probs: ent -= i * log(i, base) return ent def entropy3(labels, base=None): vc = pd.Series(labels).value_counts(normalize=True, sort=False) base = e if base is None else base return -(vc * np.log(vc)/np.log(base)).sum() def entropy4(labels, base=None): value,counts = np.unique(labels, return_counts=True) norm_counts = counts / counts.sum() base = e if base is None else base return -(norm_counts * np.log(norm_counts)/np.log(base)).sum() _

Timeit操作：

_repeat_number = 1000000 a = timeit.repeat(stmt='''entropy1(labels)''', setup='''labels=[1,3,5,2,3,5,3,2,1,3,4,5];from __main__ import entropy1''', repeat=3, number=repeat_number) b = timeit.repeat(stmt='''entropy2(labels)''', setup='''labels=[1,3,5,2,3,5,3,2,1,3,4,5];from __main__ import entropy2''', repeat=3, number=repeat_number) c = timeit.repeat(stmt='''entropy3(labels)''', setup='''labels=[1,3,5,2,3,5,3,2,1,3,4,5];from __main__ import entropy3''', repeat=3, number=repeat_number) d = timeit.repeat(stmt='''entropy4(labels)''', setup='''labels=[1,3,5,2,3,5,3,2,1,3,4,5];from __main__ import entropy4''', repeat=3, number=repeat_number) _

Timeitの結果：

_# for loop to print out results of timeit for approach,timeit_results in Zip(['scipy/numpy', 'numpy/math', 'pandas/numpy', 'numpy'], [a,b,c,d]): print('Method: {}, Avg.: {:.6f}'.format(approach, np.array(timeit_results).mean())) Method: scipy/numpy, Avg.: 63.315312 Method: numpy/math, Avg.: 49.256894 Method: pandas/numpy, Avg.: 884.644023 Method: numpy, Avg.: 60.026938 _

勝者：numpy/math（entropy2）

また、上記の_entropy2_関数は数値ANDテキストデータを処理できることに注意してください。例：entropy2(list('abcdefabacdebcab'))。元のポスターの回答は2013年からのもので、intをビニングするための特定のユースケースがありましたが、テキストでは機能しません。

Sanjeet Gupta · Answer

データをpd.Seriesおよびscipy.statsとして使用すると、特定の量のエントロピーを計算するのは非常に簡単です。

import pandas as pd import scipy.stats def ent(data): """Calculates entropy of the passed `pd.Series` """ p_data = data.value_counts() # counts occurrence of each value entropy = scipy.stats.entropy(p_data) # get entropy from counts return entropy

注：scipy.statsは提供されたデータを正規化するため、これを明示的に行う必要はありません。つまり、カウントの配列を渡すことは正常に機能します。

blueSurfer · Answer

Unutbuからの提案に従って、純粋なpython実装を作成します。

def entropy2(labels): """ Computes entropy of label distribution. """ n_labels = len(labels) if n_labels <= 1: return 0 counts = np.bincount(labels) probs = counts / n_labels n_classes = np.count_nonzero(probs) if n_classes <= 1: return 0 ent = 0. # Compute standard entropy. for i in probs: ent -= i * log(i, base=n_classes) return ent

私が欠けていた点は、ラベルは大きな配列ですが、probsは3または4要素の長さであるということでした。 pure pythonを使用すると、アプリケーションの速度が2倍になります。

joemadeus · Answer

Numpyに依存しない答え：

import math from collections import Counter def eta(data, unit='natural'): base = { 'shannon' : 2., 'natural' : math.exp(1), 'hartley' : 10. } if len(data) <= 1: return 0 counts = Counter() for d in data: counts[d] += 1 ent = 0 probs = [float(c) / len(data) for c in counts.values()] for p in probs: if p > 0.: ent -= p * math.log(p, base[unit]) return ent

これは、投げることができるデータ型を受け入れます。

>>> eta(['mary', 'had', 'a', 'little', 'lamb']) 1.6094379124341005 >>> eta([c for c in "mary had a little lamb"]) 2.311097886212714

@Jaradによって提供された答えも、タイミングを提案しました。そのために：

repeat_number = 1000000 e = timeit.repeat( stmt='''eta(labels)''', setup='''labels=[1,3,5,2,3,5,3,2,1,3,4,5];from __main__ import eta''', repeat=3, number=repeat_number)

Timeitの結果：（これは最高のnumpyアプローチよりも4倍高速だと思います）

print('Method: {}, Avg.: {:.6f}'.format("eta", np.array(e).mean())) Method: eta, Avg.: 10.461799

Ottotos · Answer

エントロピーの私のお気に入りの機能は次のとおりです。

def entropy(labels): prob_dict = {x:labels.count(x)/len(labels) for x in labels} probs = np.array(list(prob_dict.values())) return - probs.dot(np.log2(probs))

私はまだdict-> values-> list-> np.array変換を回避するより良い方法を探しています。私がそれを見つけた場合、再びコメントします。

Tan Duong · Answer

私のアプローチは次のとおりです。

labels = [0, 0, 1, 1] from collections import Counter from scipy import stats stats.entropy(list(Counter(labels).values()), base=2)

kravietz · Answer

均一に分散されたデータ（高エントロピー）：

s=range(0,256)

段階的なシャノンエントロピー計算：

import collections # calculate probability for each byte as number of occurrences / array length probabilities = [n_x/len(s) for x,n_x in collections.Counter(s).items()] # [0.00390625, 0.00390625, 0.00390625, ...] # calculate per-character entropy fractions e_x = [-p_x*math.log(p_x,2) for p_x in probabilities] # [0.03125, 0.03125, 0.03125, ...] # sum fractions to obtain Shannon entropy entropy = sum(e_x) >>> entropy 8.0

ワンライナー（import collections）：

def H(s): return sum([-p_x*math.log(p_x,2) for p_x in [n_x/len(s) for x,n_x in collections.Counter(s).items()]])

適切な機能：

import collections def H(s): probabilities = [n_x/len(s) for x,n_x in collections.Counter(s).items()] e_x = [-p_x*math.log(p_x,2) for p_x in probabilities] return sum(e_x)

テストケース- CyberChefエントロピー推定器：から取得した英語のテキスト

>>> H(range(0,256)) 8.0 >>> H(range(0,64)) 6.0 >>> H(range(0,128)) 7.0 >>> H([0,1]) 1.0 >>> H('Standard English text usually falls somewhere between 3.5 and 5') 4.228788210509104

chupvl · Answer

こちらもご覧ください。古典的なシャノンエントロピーがあり、JohnEntropyによるものよりも少し速くなるはずです http://pythonfiddle.com/shannon-entropy-calculation/

Krishna Chaitanya Gopaluni · Answer

from collections import Counter from scipy import stats labels = [0.9, 0.09, 0.1] stats.entropy(list(Counter(labels).keys()), base=2)

d.b · Answer

上記の答えは良いですが、異なる軸に沿って動作できるバージョンが必要な場合は、ここで実装を実行します。

def entropy(A, axis=None): """Computes the Shannon entropy of the elements of A. Assumes A is an array-like of nonnegative ints whose max value is approximately the number of unique values present. >>> a = [0, 1] >>> entropy(a) 1.0 >>> A = np.c_[a, a] >>> entropy(A) 1.0 >>> A # doctest: +NORMALIZE_WHITESPACE array([[0, 0], [1, 1]]) >>> entropy(A, axis=0) # doctest: +NORMALIZE_WHITESPACE array([ 1., 1.]) >>> entropy(A, axis=1) # doctest: +NORMALIZE_WHITESPACE array([[ 0.], [ 0.]]) >>> entropy([0, 0, 0]) 0.0 >>> entropy([]) 0.0 >>> entropy([5]) 0.0 """ if A is None or len(A) < 2: return 0. A = np.asarray(A) if axis is None: A = A.flatten() counts = np.bincount(A) # needs small, non-negative ints counts = counts[counts > 0] if len(counts) == 1: return 0. # avoid returning -0.0 to prevent weird doctests probs = counts / float(A.size) return -np.sum(probs * np.log2(probs)) Elif axis == 0: entropies = map(lambda col: entropy(col), A.T) return np.array(entropies) Elif axis == 1: entropies = map(lambda row: entropy(row), A) return np.array(entropies).reshape((-1, 1)) else: raise ValueError("unsupported axis: {}".format(axis))