web-dev-qa-db-ja.com

Scikit LearnSVMを使用してテキスト分類用のデータを準備する

収集したツイートを分類するために、ScikitlearnからSVMを適用しようとしています。したがって、AとBという2つのカテゴリがあります。今のところ、すべてのツイートを「A.txt」と「B.txt」の2つのテキストファイルに分類しています。ただし、Scikit LearnSVMが要求しているデータ入力の種類はわかりません。ラベル(AとB)をキーとして持つ辞書と、特徴(ユニグラム)とその頻度を値として持つ辞書があります。申し訳ありませんが、私は機械学習に本当に慣れていないので、SVMを機能させるために何をすべきかわかりません。そして、SVMがデータ入力のタイプとしてnumpy.ndarrayを使用していることがわかりました。自分のデータに基づいて作成する必要がありますか?このようなものでしょうか?

Labels    features    frequency
  A        'book'        54
  B       'movies'       32

どんな助けでも大歓迎です。

11
user1906856

テキスト特徴抽出 に関するドキュメントをご覧ください。

テキスト分類の例 もご覧ください。

ここにはチュートリアルもあります:

http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html

特に、SVMモデルにあまり焦点を当てないでください(特にsklearn.svm.SVCこれはカーネルモデルにとってより興味深いため、テキスト分類ではありません):単純なパーセプトロン、ロジスティック回帰、またはベルヌーイナイーブベイズモデルは、トレーニングがはるかに高速でありながら、同様に機能する可能性があります。

21
ogrisel