web-dev-qa-db-ja.com

Pandas)のWhere条件でグループ化

このようなデータフレームを用意します: enter image description here

'pause_end'および 'pause_start'列の値を減算し、次のようにgroupby()関数を使用して平均値の集計を行うことに基づいて、列 'dif_pause'を作成しました。

pauses['dif_pause'] = pauses['pause_end'] - pauses['pause_start']
pauses['dif_pause'].astype(dt.timedelta).map(lambda x: np.nan if pd.isnull(x) else x.days)

pauses_df=pauses.groupby(["subscription_id"])["dif_pause"].mean().reset_index(name="avg_pause")

Groupbyセクションにpause_end> pause_start(SQLのWHERE句と同等)かどうかのチェックを含めたいと思います。どうすればそれができますか?

ありがとう。

5
Keithx

フィルタリングには、最初に query または boolean indexing が必要なようです。

pauses.query("pause_end > pause_start")
       .groupby(["subscription_id"])["dif_pause"].mean().reset_index(name="avg_pause")

pauses[pauses["pause_end"] > pauses["pause_start"]]
      .groupby(["subscription_id"])["dif_pause"].mean().reset_index(name="avg_pause")
10
jezrael