web-dev-qa-db-ja.com

機械学習データの前処理で日付変数を処理する方法

26-09-2017 15:29:32の形式のトランザクションのタイムスタンプを含む変数のデータセットがあります。売上の可能な相関と予測を見つける必要があります(ロジスティック回帰で言えます)。私の質問は:

  1. 日付形式の処理方法(Excelが自動的に行うように)1つの数値に変換しますか?日、月、年、時、分、秒などの変数に分割しますか?他に考えられる提案はありますか?
  2. 年ごとに異なる週番号を追加したい場合はどうすればよいですか? 342017(2017年の週34)のような変数を追加しますか?
  3. 年の四半期の質問2でも同じようにしますか?
#         Datetime               Gender        Purchase
1    23/09/2015 00:00:00           0             1
2    23/09/2015 01:00:00           1             0
3    25/09/2015 02:00:00           1             0
4    27/09/2015 03:00:00           1             1
5    28/09/2015 04:00:00           0             0
8
ukdatahub

ランダムな考え:

日付はフィーチャエンジニアリングの優れたソースです。モデルで日付を使用する方法は1つとは思いません。ビジネスユーザーの専門知識は素晴らしいでしょう。データにコード化できる傾向が観察されていますか?

機能の可能な提案は次のとおりです。

  • 週末と平日
  • 営業時間と時刻
  • 季節
  • 年の週の数
  • 月の初め/終わり(支払日)
  • 四半期
  • アクションイベントまでの日数(距離)
  • 欠落または不完全なデータ
  • 等.

これはすべてデータセットに依存し、ほとんどは適用されません。

いくつかのリンク:

http://appliedpredictivemodeling.com/blog/2015/7/28/feature-engineering-versus-feature-extraction

https://www.salford-systems.com/blog/dan-steinberg/using-dates-in-data-mining-models

http://trevorstephens.com/kaggle-titanic-tutorial/r-part-4-feature-engineering/

17
Ryan John