pandasの特定の範囲内でランダムな日付を生成する

Question

これは自己回答の投稿です。一般的な問題は、特定の開始日と終了日の間の日付をランダムに生成することです。

考慮すべき2つのケースがあります。

時間コンポーネントを持つランダムな日付、および
時間のないランダムな日付

たとえば、開始日がある場合は2015-01-01および終了日2018-01-01、パンダを使用してこの範囲の間でN個のランダムな日付をサンプリングする方法を教えてください。

Paul Panzer · Accepted Answer

datetime64は単なるブランド変更int64したがって、ビューキャストできます。

def pp(start, end, n): start_u = start.value//10**9 end_u = end.value//10**9 return pd.DatetimeIndex((10**9*np.random.randint(start_u, end_u, n)).view('M8[ns]'))

akilat90 · Answer

UNIXタイムスタンプへの変換は受け入れられますか？

def random_dates(start, end, n=10): start_u = start.value//10**9 end_u = end.value//10**9 return pd.to_datetime(np.random.randint(start_u, end_u, n), unit='s')

サンプル実行：

start = pd.to_datetime('2015-01-01') end = pd.to_datetime('2018-01-01') random_dates(start, end) DatetimeIndex(['2016-10-08 07:34:13', '2015-11-15 06:12:48', '2015-01-24 10:11:04', '2015-03-26 16:23:53', '2017-04-01 00:38:21', '2015-05-15 03:47:54', '2015-06-24 07:32:32', '2015-11-10 20:39:36', '2016-07-25 05:48:09', '2015-03-19 16:05:19'], dtype='datetime64[ns]', freq=None)

編集：

@smciのコメントに従って、1と2の両方に対応する関数を作成し、関数自体の内部で少し説明しました。

def random_datetimes_or_dates(start, end, out_format='datetime', n=10): ''' unix timestamp is in ns by default. I divide the unix time value by 10**9 to make it seconds (or 24*60*60*10**9 to make it days). The corresponding unit variable is passed to the pd.to_datetime function. Values for the (divide_by, unit) pair to select is defined by the out_format parameter. for 1 -> out_format='datetime' for 2 -> out_format=anything else ''' (divide_by, unit) = (10**9, 's') if out_format=='datetime' else (24*60*60*10**9, 'D') start_u = start.value//divide_by end_u = end.value//divide_by return pd.to_datetime(np.random.randint(start_u, end_u, n), unit=unit)

サンプル実行：

random_datetimes_or_dates(start, end, out_format='datetime') DatetimeIndex(['2017-01-30 05:14:27', '2016-10-18 21:17:16', '2016-10-20 08:38:02', '2015-09-02 00:03:08', '2015-06-04 02:38:12', '2016-02-19 05:22:01', '2015-11-06 10:37:10', '2017-12-17 03:26:02', '2017-11-20 06:51:32', '2016-01-02 02:48:03'], dtype='datetime64[ns]', freq=None) random_datetimes_or_dates(start, end, out_format='not datetime') DatetimeIndex(['2017-05-10', '2017-12-31', '2017-11-10', '2015-05-02', '2016-04-11', '2015-11-27', '2015-03-29', '2017-05-21', '2015-05-11', '2017-02-08'], dtype='datetime64[ns]', freq=None)

cs95 · Answer

`np.random.randn` + `to_timedelta`

これはケース（1）に対処します。これを行うには、timedeltaオブジェクトのランダム配列を生成し、start日付に追加します。

def random_dates(start, end, n, unit='D', seed=None): if not seed: # from piR's answer np.random.seed(0) ndays = (end - start).days + 1 return pd.to_timedelta(np.random.Rand(n) * ndays, unit=unit) + start

>>> np.random.seed(0) >>> start = pd.to_datetime('2015-01-01') >>> end = pd.to_datetime('2018-01-01') >>> random_dates(start, end, 10) DatetimeIndex([ '2016-08-25 01:09:42.969600', '2017-02-23 13:30:20.304000', '2016-10-23 05:33:15.033600', '2016-08-20 17:41:04.012799999', '2016-04-09 17:59:00.815999999', '2016-12-09 13:06:00.748800', '2016-04-25 00:47:45.974400', '2017-09-05 06:35:58.444800', '2017-11-23 03:18:47.347200', '2016-02-25 15:14:53.894400'], dtype='datetime64[ns]', freq=None)

これにより、時刻コンポーネントを含む日付も生成されます。

残念ながら、Randはreplace=Falseをサポートしていないため、一意の日付が必要な場合は、1）非一意の日コンポーネントを生成し、2）を生成する2段階のプロセスが必要です。一意の秒/ミリ秒コンポーネントで、2つを加算します。

`np.random.randint` + `to_timedelta`

これはケース（2）に対処します。上記のrandom_datesを変更して、ランダムなフロートの代わりにランダムな整数を生成できます。

def random_dates2(start, end, n, unit='D', seed=None): if not seed: # from piR's answer np.random.seed(0) ndays = (end - start).days + 1 return start + pd.to_timedelta( np.random.randint(0, ndays, n), unit=unit )

>>> random_dates2(start, end, 10) DatetimeIndex(['2016-11-15', '2016-07-13', '2017-04-15', '2017-02-02', '2017-10-30', '2015-10-05', '2016-08-22', '2017-12-30', '2016-08-23', '2015-11-11'], dtype='datetime64[ns]', freq=None)

他の頻度で日付を生成するには、unitに異なる値を指定して上記の関数を呼び出すことができます。さらに、パラメーターfreqを追加し、必要に応じて関数呼び出しを微調整できます。

uniqueランダムな日付が必要な場合は、np.random.choiceとreplace=Falseを使用できます。

def random_dates2_unique(start, end, n, unit='D', seed=None): if not seed: # from piR's answer np.random.seed(0) ndays = (end - start).days + 1 return start + pd.to_timedelta( np.random.choice(ndays, n, replace=False), unit=unit )

パフォーマンス

ケース（2）はdt.floorを使用して取得できる特別なケースであるため、ケース（1）に対応するメソッドのみをベンチマークします。

関数

def cs(start, end, n): ndays = (end - start).days + 1 return pd.to_timedelta(np.random.Rand(n) * ndays, unit='D') + start def akilat90(start, end, n): start_u = start.value//10**9 end_u = end.value//10**9 return pd.to_datetime(np.random.randint(start_u, end_u, n), unit='s') def piR(start, end, n): dr = pd.date_range(start, end, freq='H') # can't get better than this :-( return pd.to_datetime(np.sort(np.random.choice(dr, n, replace=False))) def piR2(start, end, n): dr = pd.date_range(start, end, freq='H') a = np.arange(len(dr)) b = np.sort(np.random.permutation(a)[:n]) return dr[b]

ベンチマークコード

from timeit import timeit import pandas as pd import matplotlib.pyplot as plt res = pd.DataFrame( index=['cs', 'akilat90', 'piR', 'piR2'], columns=[10, 20, 50, 100, 200, 500, 1000, 2000, 5000], dtype=float ) for f in res.index: for c in res.columns: np.random.seed(0) start = pd.to_datetime('2015-01-01') end = pd.to_datetime('2018-01-01') stmt = '{}(start, end, c)'.format(f) setp = 'from __main__ import start, end, c, {}'.format(f) res.at[f, c] = timeit(stmt, setp, number=30) ax = res.div(res.min()).T.plot(loglog=True) ax.set_xlabel("N"); ax.set_ylabel("time (relative)"); plt.show()

piRSquared · Answer

`numpy.random.choice`

Numpyのランダムな選択を活用できます。 choiceは、大規模なdata_rangesに対して問題がある可能性があります。たとえば、大きすぎるとMemoryErrorが発生します。ランダムビットを選択するには、すべてを保存する必要があります。

random_dates('2015-01-01', '2018-01-01', 10, 'ns', seed=[3, 1415]) MemoryError

また、これにはソートが必要です。

def random_dates(start, end, n, freq, seed=None): if seed is not None: np.random.seed(seed) dr = pd.date_range(start, end, freq=freq) return pd.to_datetime(np.sort(np.random.choice(dr, n, replace=False))) random_dates('2015-01-01', '2018-01-01', 10, 'H', seed=[3, 1415]) DatetimeIndex(['2015-04-24 02:00:00', '2015-11-26 23:00:00', '2016-01-18 00:00:00', '2016-06-27 22:00:00', '2016-08-12 17:00:00', '2016-10-21 11:00:00', '2016-11-07 11:00:00', '2016-12-09 23:00:00', '2017-02-20 01:00:00', '2017-06-17 18:00:00'], dtype='datetime64[ns]', freq=None)

`numpy.random.permutation`

他の答えに似ています。ただし、date_rangeによって生成されたdatetimeindexをスライスし、別のdatetimeindexを自動的に返すため、この回答が気に入っています。

def random_dates_2(start, end, n, freq, seed=None): if seed is not None: np.random.seed(seed) dr = pd.date_range(start, end, freq=freq) a = np.arange(len(dr)) b = np.sort(np.random.permutation(a)[:n]) return dr[b]

WeNYoBen · Answer

私は新しいベースライブラリが日付の範囲を生成したことを発見しました、私の側ではpandas.data_range、これからのクレジット answer

from dateutil.rrule import rrule, DAILY import datetime, random def pick(start,end,n): return (random.sample(list(rrule(DAILY, dtstart=start,until=end)),n)) pick(datetime.datetime(2010, 2, 1, 0, 0),datetime.datetime(2010, 2, 5, 0, 0),2) [datetime.datetime(2010, 2, 3, 0, 0), datetime.datetime(2010, 2, 2, 0, 0)]

P.Tillmann · Answer

Date_rangeとsampleを使用して、ちょうど2セントです。

def random_dates(start, end, n, seed=1, replace=False): dates = pd.date_range(start, end).to_series() return dates.sample(n, replace=replace, random_state=seed) random_dates("20170101","20171223", 10, seed=1) Out[29]: 2017-10-01 2017-10-01 2017-08-23 2017-08-23 2017-11-30 2017-11-30 2017-06-15 2017-06-15 2017-11-18 2017-11-18 2017-10-31 2017-10-31 2017-07-31 2017-07-31 2017-03-07 2017-03-07 2017-09-09 2017-09-09 2017-10-15 2017-10-15 dtype: datetime64[ns]

Dheeraj · Answer

pandas DateFrameに日付フィールドを作成するための簡単なソリューションだと思います

list1 = [] for x in range(0,365): list1.append(x) date = pd.DataFrame(pd.to_datetime(list1, unit='D',Origin=pd.Timestamp('2018-01-01')))

Alex · Answer

それはいくつかの代替方法です：Dたぶん誰かがそれを必要とするでしょう。

from datetime import datetime import random import numpy as np import pandas as pd N = 10 #N-samples dates = np.zeros([N,3]) for i in range(0,N): year = random.randint(1970, 2010) month = random.randint(1, 12) day = random.randint(1, 28) #if you need to change it use variables :3 birth_date = datetime(year, month, day) dates[i] = [year,month,day] df = pd.DataFrame(dates.astype(int)) df.columns = ['year', 'month', 'day'] pd.to_datetime(df)

結果：

0 1999-08-22 1 1989-04-27 2 1978-10-01 3 1998-12-09 4 1979-04-19 5 1988-03-22 6 1992-03-02 7 1993-04-28 8 1978-10-04 9 1972-01-13 dtype: datetime64[ns]

pandasの特定の範囲内でランダムな日付を生成する

np.random.randn + to_timedelta

np.random.randint + to_timedelta

パフォーマンス

numpy.random.choice

numpy.random.permutation

`np.random.randn` + `to_timedelta`

`np.random.randint` + `to_timedelta`

`numpy.random.choice`

`numpy.random.permutation`