Scikit LearnSVMを使用してテキスト分類用のデータを準備する

Question

収集したツイートを分類するために、ScikitlearnからSVMを適用しようとしています。したがって、AとBという2つのカテゴリがあります。今のところ、すべてのツイートを「A.txt」と「B.txt」の2つのテキストファイルに分類しています。ただし、Scikit LearnSVMが要求しているデータ入力の種類はわかりません。ラベル（AとB）をキーとして持つ辞書と、特徴（ユニグラム）とその頻度を値として持つ辞書があります。申し訳ありませんが、私は機械学習に本当に慣れていないので、SVMを機能させるために何をすべきかわかりません。そして、SVMがデータ入力のタイプとしてnumpy.ndarrayを使用していることがわかりました。自分のデータに基づいて作成する必要がありますか？このようなものでしょうか？

Labels    features    frequency
  A        'book'        54
  B       'movies'       32

どんな助けでも大歓迎です。

Labels features frequency A 'book' 54 B 'movies' 32

どんな助けでも大歓迎です。

ogrisel · Answer

テキスト特徴抽出に関するドキュメントをご覧ください。

テキスト分類の例もご覧ください。

ここにはチュートリアルもあります：

http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html

特に、SVMモデルにあまり焦点を当てないでください（特にsklearn.svm.SVCこれはカーネルモデルにとってより興味深いため、テキスト分類ではありません）：単純なパーセプトロン、ロジスティック回帰、またはベルヌーイナイーブベイズモデルは、トレーニングがはるかに高速でありながら、同様に機能する可能性があります。