私は、感情分析システムが実際に機能する前に、「ポジティブ」または「ネガティブ」のいずれかに分類されるテキストの初期セットの必要性を説明する多くの記事を読んでいます。
私の質問は次のとおりです。「幸せではない」をポジティブとして分類しないように単純な否定子を考慮して、「ポジティブ」形容詞と「ネガティブ」形容詞の初歩的なチェックのみを試みた人はいますか?もしそうなら、なぜこの戦略が現実的でないのかを論じている記事はありますか?
A Peter Turneyによる古典的な論文 (2002)は、単語excellentおよびpoorをシードセットとして使用します。ターニーは、これら2つの形容詞を使用して他の単語の 相互情報 を使用し、74%の精度を達成します。
私はあなたが説明しているような訓練されていない感情分析を試みたことがありませんが、私の頭の上から問題を単純化しすぎていると思います。形容詞を分析するだけでは、テキストの感情を十分に理解できません。たとえば、「愚かな」という言葉を考えてみましょう。単独でそれをネガティブとして分類しますが、製品レビューに「... [x]製品は、この機能を最初に考えなかったために競合他社を愚かに見せてしまう...」とすると、そこでの感情は間違いなくポジティブになります。言葉が現れる大きな文脈は、このようなものでは間違いなく重要です。これが、この問題に適切に取り組むには、訓練を受けていないBag-of-Wordsのアプローチだけでは(さらにはさらに限定的なBag-of-Ajectivesでも)不十分な理由です。
事前に分類されたデータ(「トレーニングデータ」)は、テキストが正または負の感情であるかどうかを最初から判断することから、テキストが正のテキストまたは負のテキストにより類似しているかどうかを判断することへと移行するのに役立ちます。そのように分類します。もうひとつの大きなポイントは、感情分析などのテキスト分析は、ドメインごとのテキストの特性の違いに大きく影響されることが多いことです。これが、トレーニングする適切なデータセット(つまり、作業しているドメイン内からの正確なデータであり、分類する必要のあるテキストを表すことが望ましい)が、適切なデータを構築することと同じくらい重要である理由です。分類するシステム。
記事ではありませんが、お役に立てば幸いです。
ラースマンが述べたターニーの論文(2002)は、良い基本的な論文です。新しい研究では、 Li and He [2009]潜在ディリクレ割り当て (LDA)を使用して、記事の全体的な感情とトピックを同時に分類できるモデルをトレーニングするアプローチを導入しています。完全に監視されていない方法。彼らが達成する精度は84.6%です。
レビューで意見マイニングのために感情分析のいくつかの方法を試しました。私にとって最も効果的なのは、Liuの本に記載されている方法です。 http://www.cs.uic.edu/~liub/WebMiningBook.html この本では、Liuと他の人が、多くの戦略と感情分析と意見マイニングに関するさまざまな論文について議論しました。
私の主な目標は意見の特徴を抽出することでしたが、この特徴のポジティブとネガティブの分類を検出するために感情分類子を実装しました。
前処理(Wordトークン化、POSタグ付け)およびトライグラムの作成にNLTKを使用しました。次に、このTakeit内でベイズ分類器を使用して、Liuが特定した他の戦略と比較しました。
方法の1つは、この情報を表現するすべてのtrigrramをpos/negとしてタグ付けし、このデータに対して何らかの分類子を使用することに依存しています。私が試した他の方法(データセットで約85%の精度)は、文内のすべての単語と優れた単語のPMI(時間厳守相互情報量)のスコアの合計を計算することでした/ poorpos/negクラスのシードとして。
デビッド、
これが役立つかどうかはわかりませんが、感情分析にNLTKを使用する場合のJacob Perkinの ブログ投稿 を調べてみてください。
文のレベルで感情ラベルを予測するために、影響の辞書を使用してキーワードを見つけようとしました。語彙の一般性(ドメインに依存しない)を考慮すると、結果は約61%でした。論文は私のホームページにあります。
多少改良されたバージョンでは、否定副詞が考慮されました。 EmoLibという名前のシステム全体がデモに利用できます。
http://dtminredis.housing.salle.url.edu:8080/EmoLib/
よろしく、
テキストのチャンクの根本的な「近さ」を発見しようとする他の種類のテキスト分析と同様に、感情分析には魔法の「ショートカット」はありません。単純化された「形容詞」チェックまたは同様のアプローチを通じて実証済みのテキスト分析方法を簡略化しようとすると、あいまいさ、不正確な分類などにつながり、結局のところ、感情の読み取り精度が低くなります。情報源(Twitterなど)が簡潔であるほど、問題は難しくなります。