web-dev-qa-db-ja.com

Python pandas dtアクセサを介してdatetimeを効果的にタイムスタンプに変換します

数百(数百)行のデータフレームがあります。そして、日時をタイムスタンプに効果的に変換したいと思います。どうすればいいですか?

私のサンプルdf

_df = pd.DataFrame(index=pd.DatetimeIndex(start=dt.datetime(2016,1,1,0,0,1),
    end=dt.datetime(2016,1,2,0,0,1), freq='H'))\
    .reset_index().rename(columns={'index':'datetime'})

df.head()

             datetime
0 2016-01-01 00:00:01
1 2016-01-01 01:00:01
2 2016-01-01 02:00:01
3 2016-01-01 03:00:01
4 2016-01-01 04:00:01
_

ここで、.apply()を使用してdatetimeを値ごとのタイムスタンプに変換しますが、数百(数百)行ある場合、非常に長い時間(数時間)かかります。

_df['ts'] = df[['datetime']].apply(lambda x: x[0].timestamp(), axis=1).astype(int)

df.head()

             datetime          ts
0 2016-01-01 00:00:01  1451602801
1 2016-01-01 01:00:01  1451606401
2 2016-01-01 02:00:01  1451610001
3 2016-01-01 03:00:01  1451613601
4 2016-01-01 04:00:01  1451617201
_

上記の結果は私が望むものです。

_.dt_の_pandas.Series_アクセサーを使用しようとすると、エラーメッセージが表示されます。

_df['ts'] = df['datetime'].dt.timestamp
_

AttributeError: 'DatetimeProperties'オブジェクトに属性 'timestamp'がありません

たとえば、作成しようとすると。 _.dt_アクセサーを使用したdatetimeの日付部分は、.apply()を使用するよりもはるかに高速です。

_df['date'] = df['datetime'].dt.date

df.head()

             datetime          ts        date
0 2016-01-01 00:00:01  1451602801  2016-01-01
1 2016-01-01 01:00:01  1451606401  2016-01-01
2 2016-01-01 02:00:01  1451610001  2016-01-01
3 2016-01-01 03:00:01  1451613601  2016-01-01
4 2016-01-01 04:00:01  1451617201  2016-01-01
_

タイムスタンプに似たものが欲しい...

しかし、公式のドキュメントはあまり理解していません。「 Converting to Timestamps 」について説明していますが、タイムスタンプが表示されません。 pd.to_datetime()を使用してdatetimeに変換するだけで、タイムスタンプには変換しません...

_pandas.Timestamp_コンストラクターも機能しません(以下のエラーで戻ります):

_df['ts2'] = pd.Timestamp(df['datetime'])
_

TypeError:入力をタイムスタンプに変換できません

_pandas.Series.to_timestamp_ はまた、私が望む完全に異なるものを作ります:

_df['ts3'] = df['datetime'].to_timestamp

df.head()

             datetime          ts                                                ts3
0 2016-01-01 00:00:01  1451602801  <bound method Series.to_timestamp of 0    2016...
1 2016-01-01 01:00:01  1451606401  <bound method Series.to_timestamp of 0    2016...
2 2016-01-01 02:00:01  1451610001  <bound method Series.to_timestamp of 0    2016...
3 2016-01-01 03:00:01  1451613601  <bound method Series.to_timestamp of 0    2016...
4 2016-01-01 04:00:01  1451617201  <bound method Series.to_timestamp of 0    2016...
_

ありがとうございました!!

23
ragesz

values で最初にnumpy arrayに変換し、int64にキャストする必要があると思います-出力はnsにあるため、10 ** 9で除算する必要があります。

df['ts'] = df.datetime.values.astype(np.int64) // 10 ** 9
print (df)
              datetime          ts
0  2016-01-01 00:00:01  1451606401
1  2016-01-01 01:00:01  1451610001
2  2016-01-01 02:00:01  1451613601
3  2016-01-01 03:00:01  1451617201
4  2016-01-01 04:00:01  1451620801
5  2016-01-01 05:00:01  1451624401
6  2016-01-01 06:00:01  1451628001
7  2016-01-01 07:00:01  1451631601
8  2016-01-01 08:00:01  1451635201
9  2016-01-01 09:00:01  1451638801
10 2016-01-01 10:00:01  1451642401
11 2016-01-01 11:00:01  1451646001
12 2016-01-01 12:00:01  1451649601
13 2016-01-01 13:00:01  1451653201
14 2016-01-01 14:00:01  1451656801
15 2016-01-01 15:00:01  1451660401
16 2016-01-01 16:00:01  1451664001
17 2016-01-01 17:00:01  1451667601
18 2016-01-01 18:00:01  1451671201
19 2016-01-01 19:00:01  1451674801
20 2016-01-01 20:00:01  1451678401
21 2016-01-01 21:00:01  1451682001
22 2016-01-01 22:00:01  1451685601
23 2016-01-01 23:00:01  1451689201
24 2016-01-02 00:00:01  1451692801

to_timestamp は、変換に使用されます 期間から日時インデックスへ

27
jezrael

Applyは使用しないでください。単にastypeで問題ありません。

df['ts'] = df.datetime.astype('int64') // 10**9
2
Mithril

整数タイムスタンプを作成する_asi8_と呼ばれるDatetimeIndexの「隠された」属性を使用してこれを行う別の方法もあります。

pd.DatetimeIndex(df.datetime).asi8

Wes McKinneyは、リンクされたこの接線方向に関連するstackoverflowの質問でそれを提案しました here

2
BCR

Numpyを使用したくない場合は、純粋なpandas変換を使用できます

df['ts'] = pd.to_timedelta(df['datetime'], unit='ns').dt.total_seconds().astype(int)
1
Jozef Cechovsky