重複の可能性:
カテゴリへのテキスト分類
私は現在、1万件のレストランの説明に基づいて、データベースで提供される食品の種類を取得するためのソリューションに取り組んでいます。キーワードリストを使用して、どの種類の料理を提供するかを決定しています。
機械学習について少し読みましたが、実際の経験はまったくありません。このような単純な問題のより良い解決策であるかどうか、またはなぜ私に説明できますか?パフォーマンスよりも正確さが重要だと思います!
簡単な例:
["China", "Chinese", "Rice", "Noodles", "Soybeans"]
["Belgium", "Belgian", "Fries", "Waffles", "Waterzooi"]
可能な説明は次のとおりです。
「Hong's Garden Restaurantでは、リーズナブルな中華料理をお客様に提供しています。米に突然の渇望がある場合は、 noodlesまたはsoybeans土曜日の夜8時、心配しないでください!週7日営業しています持ち帰りサービスを提供しています。ここでもフライを入手できます!」
確かに、機械学習で解決できるclassification問題を記述しています。
この問題では、あなたの特徴は説明の中の言葉です。 Bag Of Words モデルを使用する必要があります-これは基本的に、各単語の単語とその出現回数が何であるかを示しています分類プロセスの問題。
問題を解決するために、次の手順を実行してください:
評価:
アルゴリズムの評価は cross-validation を使用するか、アルゴリズムの精度を評価するためにのみ使用されるラベル付きの例からテストセットを分離することができます。
最適化:
個人的な経験から-ここに私が特徴抽出に役立ついくつかの最適化があります:
ライブラリ:
残念ながら、私はpythonに堪能ではありませんが、役立つ可能性があるいくつかのライブラリを以下に示します。