web-dev-qa-db-ja.com

感情分析への最良のアルゴリズム的アプローチ

私の要件は、ニュース記事を取り入れて、それらが主題についてポジティブかネガティブかを判断することです。私は以下に概説するアプローチを取っていますが、NLPがここで役立つかもしれないことを読み続けています。私が読んだことはすべて、NLPが事実から意見を検出することを指摘していますが、私の場合はそれほど重要ではないと思います。私は2つのことを疑問に思っています:

1)アルゴリズムが機能しないのはなぜですか、および/またはどうすればアルゴリズムを改善できますか? (皮肉はおそらく落とし穴になるだろうと私は知っていますが、私たちが得るであろうタイプのニュースではそれがあまり起こらないと思います)

2)NLPはどのように役立ちますか、なぜそれを使用する必要がありますか?

私のアルゴリズム的アプローチ(私は肯定、否定、否定の単語の辞書を持っています):

1)記事の肯定的な単語と否定的な単語の数を数える

2)否定語が正または負の単語の2つまたは3つの単語で見つかった場合(つまり、最良ではない)、スコアを否定します。

3)各単語に手動で割り当てられた重みをスコアに掛けます。 (開始するには1.0)

4)ポジティブとネガティブの合計を合計して、感情スコアを取得します。

26
user387049

私はあなたのアルゴリズムに特に間違ったはないと思います、それはかなり簡単で実用的な方法です行くが、それが間違いを犯す多くの状況があります。

  1. あいまいな感情の言葉-「この製品はひどく機能します」対「この製品はひどく良いです」

  2. 否定の欠落-「この製品を購入する価値があるとは、何百万年もの間決して言わないでしょう」

  3. 引用/間接テキスト-「私の父はこの製品はひどいと言っていますが、私は同意しません」

  4. 比較-「この製品は頭の穴と同じくらい便利です」

  5. 微妙なこと-「この製品は醜く、遅く、刺激的ではありませんが、市場でその仕事をしているのはそれだけです」

私はニュース記事の代わりに例として製品レビューを使用していますが、あなたはその考えを理解しています。実際、ニュース記事は議論の両側を見せようとすることが多く、ポイントを伝えるために特定のスタイルを使用する傾向があるため、おそらく難しいでしょう。最後の例は、たとえば意見記事では非常に一般的です。

NLPがこれを支援する限り、 語義の曖昧性解消 (または単に 品詞タグ付け )が(1)、 構文解析 は(2)の長距離依存関係に役立つ可能性があり、ある種の チャンキング は(3)に役立つ可能性があります。それはすべて研究レベルの仕事ですが、あなたが直接使用できることを私が知っていることは何もありません。問題(4)と(5)はもっと難しいので、私は手を挙げてこの時点で諦めます。

私はあなたが持っているアプローチに固執し、出力を注意深く見て、それがあなたが望むことをしているかどうかを確認します。もちろん、そもそも「感情」の定義を理解してほしいという問題が発生します...

33
Stompchicken

私の好きな例は「本を読むだけ」です。明確な感情の言葉は含まれておらず、文脈に大きく依存しています。それが映画レビューに現れる場合、それは映画が吸う-それはあなたの時間の無駄ですが、本は良いことを意味します。しかし、それが書評にある場合、それは前向きな感情をもたらします。

そして、「これは市場で最小の[携帯]電話です」とはどうでしょうか。 90年に戻って、それは大きな賞賛でした。今日、それは小さすぎることを示しているかもしれません。

感情分析の複雑さを理解するために、ここから始めると思います: http://www.cs.cornell.edu/home/llee/opinion-mining-sentiment-analysis-survey.html (CornellのLillian Leeによる)。

5
ScienceFriction

OpinionFinderシステムとそれを説明している論文が役立つかもしれません。 http://www.cs.pitt.edu/mpqa/ で、意見分析のための他のリソースとともに入手できます。

それは文書レベルでの極性分類を超えていますが、文レベルで個々の意見を見つけるようにしてください。

2
zdepablo

あなたがおっしゃったすべての質問に対する最良の答えは、教授による「感情分析と意見マイニング」というタイトルの本を読むことだと思います- ビング・リウ。この本は、感情分析の分野で最高のものです。すごいです。それを見るだけで、「なぜ」と「どのように」のすべての質問に対する答えが見つかります!

2
Pedram

機械学習の手法の方がおそらく優れています。

Whitelaw、Garg、およびArgamon 否定を処理するための同様の手法を使用して、92%の精度を達成する手法があり、テキスト分類のためのサポートベクターマシンがあります。

2
Ken Bloom