web-dev-qa-db-ja.com

センチメント分析のためのトレーニングデータ

企業ドメインで感情の肯定/否定として既に分類されているドキュメントのコーパスはどこで入手できますか?アナリストやメディアが提供する企業のレビューなど、企業のレビューを提供するドキュメントの大規模なコーパスが必要です。

製品や映画のレビューがあるコーパスを見つけました。ビジネスの言語に一致する、企業のレビューを含むビジネスドメインのコーパスはありますか?

55
London guy

http://www.cs.cornell.edu/home/llee/data/

http://mpqa.cs.pitt.edu/corpora/mpqa_corpus

次のように、スマイリーでTwitterを使用できます。 http://web.archive.org/web/20111119181304/http://deepthoughtinc.com/wp-content/uploads/2011/01/Twitter- as-a-Corpus-for-Sentiment-Analysis-and-Opinion-Mining.pdf

それがあなたを始めることを願っています。否定、センチメントスコープなどの特定のサブタスクに興味がある場合は、文献に詳細があります。

企業に焦点を当てるには、メソッドとトピック検出を組み合わせたり、安価に特定の企業の多くの言及を組み合わせたりすることができます。または、メカニカルターカーによって注釈をデータに付けることもできます。

37
Gregory Marton

これは、数週間前に my blog から書いたリストです。これらのデータセットの一部は、最近NLTK Pythonプラットフォームに含まれています。

レキシコン


データセット


参照:

23
Kurt Bourbaki
12
y2p

探索したいドメインに関するリソース(メディアチャンネル、ブログなど)がある場合は、独自のコーパスを作成できます。私はPythonでこれを行います:

  • beautiful Soupの使用 http://www.crummy.com/software/BeautifulSoup/ 私が分類したいコンテンツを解析するために。
  • 企業に関する肯定的/否定的な意見を意味するこれらの文を分離します。
  • NLTKを使用して、この文の処理、単語のトークン化、POSタグ付けなどを行います。
  • NLTK PMIを使用して、1つのクラスのみで頻繁に発生するバイグラムまたはトライグラムを計算します

コーパスの作成は、前処理、チェック、タグ付けなどの面倒な作業ですが、特定のドメインのモデルを何度も準備することで、精度が何度も向上するという利点があります。準備済みのコーパスを取得できる場合は、センチメント分析を行ってください;)

4
Luchux

そのようなコーパスが自由に利用できることは知りませんが、ラベルのないデータセットで nsupervised method を試すことができます。

1
Fred Foo

Datafinitiから多数のオンラインレビューを入手できます。ほとんどのレビューには評価データが付いており、ポジティブ/ネガティブよりも感情の粒度が細かくなります。 レビューのあるビジネスのリスト 、そして レビューのある製品のリスト です。

0
shiondev