pandasを使用して、時系列で連続する同じデータを検索する方法

Question

これがこのような時系列データです、それをdfと呼びます：

 'No' 'Date' 'Value' 0 600000 1999-11-10 1 1 600000 1999-11-11 1 2 600000 1999-11-12 1 3 600000 1999-11-15 1 4 600000 1999-11-16 1 5 600000 1999-11-17 1 6 600000 1999-11-18 0 7 600000 1999-11-19 1 8 600000 1999-11-22 1 9 600000 1999-11-23 1 10 600000 1999-11-24 1 11 600000 1999-11-25 0 12 600001 1999-11-26 1 13 600001 1999-11-29 1 14 600001 1999-11-30 0

連続する「値」1の日付範囲を取得したいので、次のように最終結果を取得するにはどうすればよいですか。

 'No' 'BeginDate' 'EndDate' 'Consecutive' 0 600000 1999-11-10 1999-11-17 6 1 600000 1999-11-19 1999-11-24 4 2 600001 1999-11-26 1999-11-29 2

user1827356 · Accepted Answer

これはそれを行う必要があります

df['value_grp'] = (df.Values.diff(1) != 0).astype('int').cumsum()

value_grpは、値が変更されるたびに1ずつ増加します。以下では、グループの結果を抽出できます

pd.DataFrame({'BeginDate' : df.groupby('value_grp').Date.first(), 'EndDate' : df.groupby('value_grp').Date.last(), 'Consecutive' : df.groupby('value_grp').size(), 'No' : df.groupby('value_grp').No.first()}).reset_index(drop=True)

MaxU · Answer

別の解決策は次のとおりです。

rslt = (df.assign(Consecutive=df.Value .groupby((df.Value != df.Value.shift()) .cumsum()) .transform('size')) .query('Consecutive > 1') .groupby('Consecutive') .agg({'No':{'No':'first'}, 'Date': {'BeginDate':'first', 'EndDate':'last'}}) .reset_index() ) rslt.columns = [t[1] if t[1] else t[0] for t in rslt.columns]

デモ：

In [225]: %paste rslt = (df.assign(Consecutive=df.Value .groupby((df.Value != df.Value.shift()) .cumsum()) .transform('size')) .query('Consecutive > 1') .groupby('Consecutive') .agg({'No':{'No':'first'}, 'Date': {'BeginDate':'first', 'EndDate':'last'}}) .reset_index() ) rslt.columns = [t[1] if t[1] else t[0] for t in rslt.columns] ## -- End pasted text -- In [226]: rslt Out[226]: Consecutive BeginDate EndDate No 0 2 1999-11-26 1999-11-29 600001 1 4 1999-11-19 1999-11-24 600000 2 6 1999-11-10 1999-11-17 600000