私は0.4のコヒーレンススコアが良いか悪いかを知る必要がありますか?トピックモデリングアルゴリズムとしてLDAを使用します。
この文脈における平均コヒーレンススコアは何ですか。
サラからの素晴らしい答えに加えて:
MASS Coherence コーパス内で2つの単語(WI、WJ)がどれくらいの頻度であるかを測定しました。それは次のように定義されます。
D(Wi, Wj) = log [ (D(Wi, Wj) + EPSILON) / D(Wi) ]
_
ここで、D(WI、WJ)は何回WID WIとWORD WJが一緒に登場したかです。
D(WI)は何回WID WIがコーパスで一人で現れたかです。
Epsilonは小さい値です (1e-12)のような 0値を回避するために分子に追加されました
WiとWjがまとめられていない場合、これは宇宙を破るであろうログ(0)になります。イプシロン値はこれを修正するためのハックの種類です。
結論として、あなたは非常に大きな負の数からずっとおよその負の数までの価値を得ることができます。
私はあなたが作業しているコーパスと他のクラスターのスコアを比較して、その善や悪いことを追加したいと思います。
記事にサラが提供されたリンクでは、~0.33のコヒーレンススコアと最適な場合が33トピックを示していますが、著者がそのクラスター内の繰り返しの用語があるとおりです。その場合、結果が多かれ少なかれ解釈可能かどうかを確認するために、用語/スニペットを最適なクラスタ分解から低いコヒーレンススコアに比較する必要があります。
もちろん、モデルのパラメータを調整する必要がありますが、スコアはコンテキストに依存しています。それは言ったように、SARAが~1または~0が述べられているのでおそらく間違っている。
あなたのモデルをベンチマークデータセットと比較することができ、それがより高いコヒーレンスを持っているならば、あなたはあなたのモデルがどのくらいうまくいっているかのより良いゲージを持っています。
この論文は私に役立ちました: https://rb.gy/kejxkz