DataFrame
という名前の列を持つdate
があります。 「日付」列をDateTime
オブジェクトに変換/解析するにはどうすればよいですか?
sql.read_frame()
を使用してPostgresqlデータベースから日付列をロードしました。 date
列の例は_2013-04-04
_です。
私がやろうとしているのは、_2013-04-01
_の後、_2013-04-04
_の前など、特定の期間内に日付列があるデータフレーム内のすべての行を選択することです。
以下の私の試みはエラー_'Series' object has no attribute 'read'
_を与えます
試行
_import dateutil
df['date'] = dateutil.parser.parse(df['date'])
_
エラー
_AttributeError Traceback (most recent call last)
<ipython-input-636-9b19aa5f989c> in <module>()
15
16 # Parse 'Date' Column to Datetime
---> 17 df['date'] = dateutil.parser.parse(df['date'])
18
19 # SELECT RECENT SALES
C:\Python27\lib\site-packages\dateutil\parser.pyc in parse(timestr, parserinfo, **kwargs)
695 return parser(parserinfo).parse(timestr, **kwargs)
696 else:
--> 697 return DEFAULTPARSER.parse(timestr, **kwargs)
698
699
C:\Python27\lib\site-packages\dateutil\parser.pyc in parse(self, timestr, default, ignoretz, tzinfos, **kwargs)
299 default = datetime.datetime.now().replace(hour=0, minute=0,
300 second=0, microsecond=0)
--> 301 res = self._parse(timestr, **kwargs)
302 if res is None:
303 raise ValueError, "unknown string format"
C:\Python27\lib\site-packages\dateutil\parser.pyc in _parse(self, timestr, dayfirst, yearfirst, fuzzy)
347 yearfirst = info.yearfirst
348 res = self._result()
--> 349 l = _timelex.split(timestr)
350 try:
351
C:\Python27\lib\site-packages\dateutil\parser.pyc in split(cls, s)
141
142 def split(cls, s):
--> 143 return list(cls(s))
144 split = classmethod(split)
145
C:\Python27\lib\site-packages\dateutil\parser.pyc in next(self)
135
136 def next(self):
--> 137 token = self.get_token()
138 if token is None:
139 raise StopIteration
C:\Python27\lib\site-packages\dateutil\parser.pyc in get_token(self)
66 nextchar = self.charstack.pop(0)
67 else:
---> 68 nextchar = self.instream.read(1)
69 while nextchar == '\x00':
70 nextchar = self.instream.read(1)
AttributeError: 'Series' object has no attribute 'read'
_
df['date'].apply(dateutil.parser.parse)
はエラー_AttributeError: 'datetime.date' object has no attribute 'read'
_をくれます
df['date'].truncate(after='2013/04/01')
はエラー_TypeError: can't compare datetime.datetime to long
_を返します
_df['date'].dtype
_はdtype('O')
を返します。すでにdatetime
オブジェクトですか?
パンダはすでにそれをdatetime
オブジェクトとして読み取ります!したがって、2つの日付の間の行を選択し、マスクすることでそれを行うことができます。
df_masked = df[(df.date > '2012-04-01') & (df.date < '2012-04-04')]
何らかの理由で文字列からエラーが発生していると言ったので、これを試してください:
df_masked = df[(df.date > datetime.date(2012,4,1)) & (df.date < datetime.date(2012,4,4))]
Pandasはオブジェクトの日時を認識していますが、インポート関数の一部を使用すると、文字列として取得されます。そのため、列が文字列ではなく日時型として設定されていることを確認する必要があります。その後、クエリを作成できます。
df['date'] = pd.to_datetime(df['date'])
df_masked = df[(df['date'] > datetime.date(2012,4,1)) & (df['date'] < datetime.date(2012,4,4))]
おそらくapply
が必要なので、次のようにします。
df['date'] = df['date'].apply(dateutil.parser.parse)
コラムの例がなければ、これが機能することを保証することはできませんが、その方向の何かがあなたの継続に役立つはずです。
datetime.date
with Pandas pd.Timestamp
「パンダdatetime
シリーズ」にはpd.Timestamp
要素、notdatetime.date
要素。パンダの推奨ソリューション:
s = pd.to_datetime(s) # convert series to Pandas
mask = s > '2018-03-10' # calculate Boolean mask against Pandas-compatible object
トップアンサーには問題があります:
TypeError
を与えます。良いPandasソリューション必須確認:
datetime
シリーズであり、object
dtypeではありません。datetime
シリーズは、互換性のあるオブジェクトと比較されます。 pd.Timestamp
、または正しい形式の文字列。ベンチマークのデモは次のとおりです。1回の操作で1回限りの変換コストをすぐに相殺できることを示しています。
from datetime import date
L = [date(2018, 1, 10), date(2018, 5, 20), date(2018, 10, 30), date(2018, 11, 11)]
s = pd.Series(L*10**5)
a = s > date(2018, 3, 10) # accepted solution #2, inefficient
b = pd.to_datetime(s) > '2018-03-10' # more efficient, including datetime conversion
assert a.equals(b) # check solutions give same result
%timeit s > date(2018, 3, 10) # 40.5 ms
%timeit pd.to_datetime(s) > '2018-03-10' # 33.7 ms
s = pd.to_datetime(s)
%timeit s > '2018-03-10' # 2.85 ms
アイテムを繰り返し処理し、それらを個別に解析してから、新しいリストを作成する必要があります。
df['date'] = [dateutil.parser.parse(x) for x in df['date']]