収集したツイートを分類するために、ScikitlearnからSVMを適用しようとしています。したがって、AとBという2つのカテゴリがあります。今のところ、すべてのツイートを「A.txt」と「B.txt」の2つのテキストファイルに分類しています。ただし、Scikit LearnSVMが要求しているデータ入力の種類はわかりません。ラベル(AとB)をキーとして持つ辞書と、特徴(ユニグラム)とその頻度を値として持つ辞書があります。申し訳ありませんが、私は機械学習に本当に慣れていないので、SVMを機能させるために何をすべきかわかりません。そして、SVMがデータ入力のタイプとしてnumpy.ndarrayを使用していることがわかりました。自分のデータに基づいて作成する必要がありますか?このようなものでしょうか?
Labels features frequency
A 'book' 54
B 'movies' 32
どんな助けでも大歓迎です。
テキスト特徴抽出 に関するドキュメントをご覧ください。
テキスト分類の例 もご覧ください。
ここにはチュートリアルもあります:
http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html
特に、SVMモデルにあまり焦点を当てないでください(特にsklearn.svm.SVC
これはカーネルモデルにとってより興味深いため、テキスト分類ではありません):単純なパーセプトロン、ロジスティック回帰、またはベルヌーイナイーブベイズモデルは、トレーニングがはるかに高速でありながら、同様に機能する可能性があります。