この質問はここかS.O.たぶん...
トレーニングデータセットに、次のようなカテゴリデータと連続データの両方が含まれているとします。
Animal, breed, sex, age, weight, blood_pressure, annual_cost
cat, calico, M, 10, 15 , 100 , 100
cat, tabby, F, 5, 10 , 80 , 200
dog, beagle, M, 3, 30 , 90 , 200
dog, lab, F, 8, 75 , 80 , 100
予測される従属変数は、年間の獣医費用です。そのようなデータセットを処理するために利用できる特定の手法について、私は少し混乱しています。連続データとカテゴリデータの両方が混在するデータセットを処理するために一般的に使用される方法は何ですか?
カテゴリー属性の各クラス(品種、性別...)について、そのクラスで可能な値の数と同じ数のコンポーネントを特徴ベクトルに追加できます。次に、データポイントにi番目の値がある場合、それらのコンポーネントのi番目の要素を1に設定し、その属性の残りの要素を0に設定します。
この例では、性別の場合、2つの新しいコンポーネントを特徴ベクトルに追加します。動物が男性の場合、最初の動物を1に設定し、2番目の動物を0に設定します。動物が女性の場合は、逆も同様です。動物の場合、可能性が猫、犬、魚であれば、3つのコンポーネントで同じことを行います。
これらは、継続的な属性と並んで共存します。ただし、「指標値」(属性が「オン」のときに使用する値)の大きさを調整して、使用している連続値の大きさに匹敵するようにすることもできます。
この問題に対処する方法を選択した場合、次のステップは、サポートベクターマシンなどのアルゴリズムを選択して、特徴ベクトルにフィードすることです。もちろん、Decision Treesのようないくつかのアプローチでは、最初に上記のステップを必要としません。
data pre-processing を見てください。これは、機械学習技術の前にあります。 ここ は良い紹介です(Googleで見つかります)。
テクニックに関しては 異なるアプローチ がたくさんあります。データの前処理を行った後、それらのほとんどを使用できます。あなたはそれらを試して、あなたのニーズに最も合うものを選ぶべきです。