web-dev-qa-db-ja.com

Pandas列をDatetimeに解析する

DataFrameという名前の列を持つdateがあります。 「日付」列をDateTimeオブジェクトに変換/解析するにはどうすればよいですか?

sql.read_frame()を使用してPostgresqlデータベースから日付列をロードしました。 date列の例は_2013-04-04_です。

私がやろうとしているのは、_2013-04-01_の後、_2013-04-04_の前など、特定の期間内に日付列があるデータフレーム内のすべての行を選択することです。

以下の私の試みはエラー_'Series' object has no attribute 'read'_を与えます

試行

_import dateutil

df['date'] = dateutil.parser.parse(df['date'])
_

エラー

_AttributeError                            Traceback (most recent call last)
<ipython-input-636-9b19aa5f989c> in <module>()
     15 
     16 # Parse 'Date' Column to Datetime
---> 17 df['date'] = dateutil.parser.parse(df['date'])
     18 
     19 # SELECT RECENT SALES

C:\Python27\lib\site-packages\dateutil\parser.pyc in parse(timestr, parserinfo, **kwargs)
    695         return parser(parserinfo).parse(timestr, **kwargs)
    696     else:
--> 697         return DEFAULTPARSER.parse(timestr, **kwargs)
    698 
    699 

C:\Python27\lib\site-packages\dateutil\parser.pyc in parse(self, timestr, default, ignoretz, tzinfos, **kwargs)
    299             default = datetime.datetime.now().replace(hour=0, minute=0,
    300                                                       second=0, microsecond=0)
--> 301         res = self._parse(timestr, **kwargs)
    302         if res is None:
    303             raise ValueError, "unknown string format"

C:\Python27\lib\site-packages\dateutil\parser.pyc in _parse(self, timestr, dayfirst, yearfirst, fuzzy)
    347             yearfirst = info.yearfirst
    348         res = self._result()
--> 349         l = _timelex.split(timestr)
    350         try:
    351 

C:\Python27\lib\site-packages\dateutil\parser.pyc in split(cls, s)
    141 
    142     def split(cls, s):
--> 143         return list(cls(s))
    144     split = classmethod(split)
    145 

C:\Python27\lib\site-packages\dateutil\parser.pyc in next(self)
    135 
    136     def next(self):
--> 137         token = self.get_token()
    138         if token is None:
    139             raise StopIteration

C:\Python27\lib\site-packages\dateutil\parser.pyc in get_token(self)
     66                 nextchar = self.charstack.pop(0)
     67             else:
---> 68                 nextchar = self.instream.read(1)
     69                 while nextchar == '\x00':
     70                     nextchar = self.instream.read(1)

AttributeError: 'Series' object has no attribute 'read'
_

df['date'].apply(dateutil.parser.parse)はエラー_AttributeError: 'datetime.date' object has no attribute 'read'_をくれます

df['date'].truncate(after='2013/04/01')はエラー_TypeError: can't compare datetime.datetime to long_を返します

_df['date'].dtype_はdtype('O')を返します。すでにdatetimeオブジェクトですか?

26
Nyxynyx

パンダはすでにそれをdatetimeオブジェクトとして読み取ります!したがって、2つの日付の間の行を選択し、マスクすることでそれを行うことができます。

df_masked = df[(df.date > '2012-04-01') & (df.date < '2012-04-04')]

何らかの理由で文字列からエラーが発生していると言ったので、これを試してください:

df_masked = df[(df.date > datetime.date(2012,4,1)) & (df.date < datetime.date(2012,4,4))]
5
Ryan Saxe

Pandasはオブジェクトの日時を認識していますが、インポート関数の一部を使用すると、文字列として取得されます。そのため、列が文字列ではなく日時型として設定されていることを確認する必要があります。その後、クエリを作成できます。

df['date']  = pd.to_datetime(df['date'])
df_masked = df[(df['date'] > datetime.date(2012,4,1)) & (df['date'] < datetime.date(2012,4,4))]
53
Keith

おそらくapplyが必要なので、次のようにします。

df['date'] = df['date'].apply(dateutil.parser.parse)

コラムの例がなければ、これが機能することを保証することはできませんが、その方向の何かがあなたの継続に役立つはずです。

4
herrfz

混同しないでくださいdatetime.date with Pandas pd.Timestamp

「パンダdatetimeシリーズ」にはpd.Timestamp要素、notdatetime.date要素。パンダの推奨ソリューション:

s = pd.to_datetime(s)    # convert series to Pandas
mask = s > '2018-03-10'  # calculate Boolean mask against Pandas-compatible object

トップアンサーには問題があります:

  • @RyanSaxeの受け入れられた回答の最初の試行は機能しません。 2番目の答えは非効率的です。
  • Pandas v0.23.0の時点で、@ Keithの非常に支持された答えは機能しません;それはTypeErrorを与えます。

良いPandasソリューション必須確認:

  1. シリーズはPandas datetimeシリーズであり、object dtypeではありません。
  2. datetimeシリーズは、互換性のあるオブジェクトと比較されます。 pd.Timestamp、または正しい形式の文字列。

ベンチマークのデモは次のとおりです。1回の操作で1回限りの変換コストをすぐに相殺できることを示しています。

from datetime import date

L = [date(2018, 1, 10), date(2018, 5, 20), date(2018, 10, 30), date(2018, 11, 11)]
s = pd.Series(L*10**5)

a = s > date(2018, 3, 10)             # accepted solution #2, inefficient
b = pd.to_datetime(s) > '2018-03-10'  # more efficient, including datetime conversion

assert a.equals(b)                    # check solutions give same result

%timeit s > date(2018, 3, 10)                  # 40.5 ms
%timeit pd.to_datetime(s) > '2018-03-10'       # 33.7 ms

s = pd.to_datetime(s)

%timeit s > '2018-03-10'                       # 2.85 ms
4
jpp

アイテムを繰り返し処理し、それらを個別に解析してから、新しいリストを作成する必要があります。

df['date'] = [dateutil.parser.parse(x) for x in df['date']]
1
ryzhiy