企業ドメインで感情の肯定/否定として既に分類されているドキュメントのコーパスはどこで入手できますか?アナリストやメディアが提供する企業のレビューなど、企業のレビューを提供するドキュメントの大規模なコーパスが必要です。
製品や映画のレビューがあるコーパスを見つけました。ビジネスの言語に一致する、企業のレビューを含むビジネスドメインのコーパスはありますか?
http://www.cs.cornell.edu/home/llee/data/
http://mpqa.cs.pitt.edu/corpora/mpqa_corpus
次のように、スマイリーでTwitterを使用できます。 http://web.archive.org/web/20111119181304/http://deepthoughtinc.com/wp-content/uploads/2011/01/Twitter- as-a-Corpus-for-Sentiment-Analysis-and-Opinion-Mining.pdf
それがあなたを始めることを願っています。否定、センチメントスコープなどの特定のサブタスクに興味がある場合は、文献に詳細があります。
企業に焦点を当てるには、メソッドとトピック検出を組み合わせたり、安価に特定の企業の多くの言及を組み合わせたりすることができます。または、メカニカルターカーによって注釈をデータに付けることもできます。
これは、数週間前に my blog から書いたリストです。これらのデータセットの一部は、最近NLTK Pythonプラットフォームに含まれています。
オピニオンレキシコンby Bing Liu
MPQA主観性辞書
SentiWordNet
Harvard General Inquirer
言語的問い合わせと単語数(LIWC)
Vader Lexicon
MPQAデータセット
[〜#〜] notes [〜#〜]:GNU Public License。
Sentiment140(ツイート)
STS-Gold(ツイート)
カスタマーレビューデータセット(製品レビュー)
NLTK Pythonプラットフォームに含まれています
賛否両論のデータセット(賛否両論)
<pros>
または<cons>
とタグ付けされた文のリストNLTK Pythonプラットフォームに含まれています
比較文(レビュー)
NLTK Pythonプラットフォームに含まれています
Sanders Analytics Twitter Sentiment Corpus(ツイート)
4つの異なるトピックについて5513の手分類ツイート。 TwitterのToSのため、小さなPythonスクリプトが含まれており、すべてのツイートをダウンロードできます。感情分類自体は無料で、制限なしで提供されます。商用製品に使用できます。それらは変更される場合があります。
スペイン語のツイート(ツイート)
SemEval 2014(ツイート)
(readmeファイルから)取得したツイート、注釈、またはコーパスを再配布しないでください。
さまざまなデータセット(レビュー)
さまざまなデータセット#2(レビュー)
参照:
探索したいドメインに関するリソース(メディアチャンネル、ブログなど)がある場合は、独自のコーパスを作成できます。私はPythonでこれを行います:
コーパスの作成は、前処理、チェック、タグ付けなどの面倒な作業ですが、特定のドメインのモデルを何度も準備することで、精度が何度も向上するという利点があります。準備済みのコーパスを取得できる場合は、センチメント分析を行ってください;)
そのようなコーパスが自由に利用できることは知りませんが、ラベルのないデータセットで nsupervised method を試すことができます。
Datafinitiから多数のオンラインレビューを入手できます。ほとんどのレビューには評価データが付いており、ポジティブ/ネガティブよりも感情の粒度が細かくなります。 レビューのあるビジネスのリスト 、そして レビューのある製品のリスト です。