ポジティブな言葉とネガティブな言葉の辞書をどこで手に入れることができるのか誰にもわからないのではないかと思っていました。私は感情分析を検討していますが、これは重要な部分です。
ピッツバーグ大学の センチメントレキシコン は、あなたが求めているものかもしれません。これは、ポジティブ/ニュートラル/ネガティブな感情を持つ約8,000語の辞書です。 このペーパー で詳しく説明されており、GPLの下でリリースされています。
少し遅れて到着するのは、辞書が感情分析に限定的に貢献していることだけです。センチメントを含む文の中には、「センチメント」ワードを含まないものがあります。 「本を読む」は、本のレビューでは肯定的であり、映画のレビューでは否定的である可能性があります。同様に、「予測不能」という感情の言葉は、スリラーの文脈では肯定的であるが、トヨタの休憩システムを説明するときには否定的である可能性がある。
そして、もっとたくさんあります...
Bing Liu教授は約6800語の英語の辞書を提供しています。次のリンクからダウンロードできます。 意見マイニング、感情分析、意見スパム検出
2002年のこの論文 は、2つの単語のみをシードセットとして使用して、テキストサンプルからそのような辞書を自動的に導出するアルゴリズムについて説明しています。
Harvard-IV辞書ディレクトリ http://www.wjh.harvard.edu/~inquirer/homecat.htm には、少なくとも2セットの正/負の向きのすぐに使用できる辞書があります。
[〜#〜] afinn [〜#〜] ここにあり、動的に作成することもできます。未知の+ ve Wordが来るたびに、+ 1を追加します。バナナが新しい+ ve Wordであり、2回現れると、+ 2になります。
クロールする記事やデータが多くなるほど、辞書は強くなります!
Vaderセンチメントレキシコンを使用できます
from nltk.sentiment.vader import SentimentIntensityAnalyzer
sentence='Apple is good for health'
sid = SentimentIntensityAnalyzer()
ss = sid.polarity_scores(sentence)
print(ss)
それはあなたに文の極性を与えます。
出力:
{'compound': 0.4404, 'neu': 0.58, 'pos': 0.42, 'neg': 0.0}
Sentiwords は155,000ワードを提供します(そして、その極性、つまり、非常にネガティブから非常にポジティブまでの-1と1の間のスコア)。レキシコンについて説明します ここ