過去1年間の1週間あたりのアカウントアクティビティのレポートを生成する遅いクエリがあります。現在、テーブルには500万行近くあり、このクエリの実行には現在8秒かかります。 (現在の)ボトルネックは、タイムスタンプ範囲の順次スキャンです。
account=> EXPLAIN ANALYZE SELECT to_timestamp(to_char(date_trunc('week', event_time), 'IYYY-IW'), 'IYYY-IW')::date AS date, count(DISTINCT account) FROM account_history WHERE event_time BETWEEN now() - interval '51 weeks' AND now() GROUP BY date ORDER BY date;
GroupAggregate (cost=450475.76..513465.44 rows=2290534 width=12) (actual time=7524.474..8003.291 rows=52 loops=1)
Group Key: ((to_timestamp(to_char(date_trunc('week'::text, event_time), 'IYYY-IW'::text), 'IYYY-IW'::text))::date)
-> Sort (cost=450475.76..456202.09 rows=2290534 width=12) (actual time=7519.053..7691.924 rows=2314164 loops=1)
Sort Key: ((to_timestamp(to_char(date_trunc('week'::text, event_time), 'IYYY-IW'::text), 'IYYY-IW'::text))::date)
Sort Method: external sort Disk: 40704kB
-> Seq Scan on account_history (cost=0.00..169364.81 rows=2290534 width=12) (actual time=1470.438..6222.076 rows=2314164 loops=1)
Filter: ((event_time <= now()) AND (event_time >= (now() - '357 days'::interval)))
Rows Removed by Filter: 2591679
Planning time: 0.126 ms
Execution time: 8011.160 ms
テーブル:
account=> \d account_history
Table "public.account_history"
Column | Type | Modifiers
-------------+-----------------------------+---------------------------
account | integer | not null
event_code | text | not null
event_time | timestamp without time zone | not null default now()
description | text | not null default ''::text
Indexes:
"account_history_idx" btree (account, event_time DESC)
"account_id_idx" btree (account, event_code, event_time)
Foreign-key constraints:
"account_fk" FOREIGN KEY (account) REFERENCES account(id) ON UPDATE CASCADE ON DELETE RESTRICT
"event_code_fk" FOREIGN KEY (event_code) REFERENCES domain_account_event(code) ON UPDATE CASCADE ON DELETE RESTRICT
最初にこのテーブルを作成したときに、btreeインデックスの一部としてタイムスタンプ列を追加しましたが、シーケンシャルスキャンはテーブルの行数が(そのため)少ないことが原因であると考えました( 関連する質問 を参照)= =)。
しかし、テーブルが数百万に増えたため、クエリのパフォーマンスの問題に気付き、インデックスがクエリで使用されていないことがわかりました。
推奨される順序付けされたインデックスを追加してみました here が、実行プランでも明らかに使用されていません。
このテーブルにインデックスを付けるより良い方法はありますか、またはこれらのインデックスの両方をバイパスするクエリに固有の何かがありますか?
更新:タイムスタンプのみにインデックスを追加すると、そのインデックスが使用されます。ただし、実行時間を25%削減するだけでした。
account=> CREATE INDEX account_history_time_idx ON account_history (event_time DESC);
account=> EXPLAIN ANALYZE VERBOSE SELECT to_timestamp(to_char(date_trunc('week', event_time), 'IYYY-IW'), 'IYYY-IW')::date AS date, count(DISTINCT account) FROM account_history WHERE event_time BETWEEN now() - interval '51 weeks' AND now() GROUP BY date ORDER BY date;
GroupAggregate (cost=391870.30..454870.16 rows=2290904 width=12) (actual time=5481.930..6104.838 rows=52 loops=1)
Output: ((to_timestamp(to_char(date_trunc('week'::text, event_time), 'IYYY-IW'::text), 'IYYY-IW'::text))::date), count(DISTINCT account)
Group Key: ((to_timestamp(to_char(date_trunc('week'::text, account_history.event_time), 'IYYY-IW'::text), 'IYYY-IW'::text))::date)
-> Sort (cost=391870.30..397597.56 rows=2290904 width=12) (actual time=5474.181..5771.903 rows=2314038 loops=1)
Output: ((to_timestamp(to_char(date_trunc('week'::text, event_time), 'IYYY-IW'::text), 'IYYY-IW'::text))::date), account
Sort Key: ((to_timestamp(to_char(date_trunc('week'::text, account_history.event_time), 'IYYY-IW'::text), 'IYYY-IW'::text))::date)
Sort Method: external merge Disk: 40688kB
-> Index Scan using account_history_time_idx on public.account_history (cost=0.44..110710.59 rows=2290904 width=12) (actual time=0.108..4352.143 rows=2314038 loops=1)
Output: (to_timestamp(to_char(date_trunc('week'::text, event_time), 'IYYY-IW'::text), 'IYYY-IW'::text))::date, account
Index Cond: ((account_history.event_time >= (now() - '357 days'::interval)) AND (account_history.event_time <= now()))
Planning time: 0.204 ms
Execution time: 6112.832 ms
https://explain.depesz.com/s/PSf
提案されたようにVACUUM FULL
も試しました here ですが、実行時間に違いはありませんでした。
次に、同じテーブルに対するいくつかの単純なクエリの実行計画を示します。
行をカウントするだけで0.5秒かかります。
account=> EXPLAIN ANALYZE VERBOSE SELECT COUNT(*) FROM account_history;
Aggregate (cost=97401.04..97401.05 rows=1 width=0) (actual time=551.179..551.179 rows=1 loops=1)
Output: count(*)
-> Seq Scan on public.account_history (cost=0.00..85136.43 rows=4905843 width=0) (actual time=0.039..344.675 rows=4905843 loops=1)
Output: account, event_code, event_time, description
Planning time: 0.075 ms
Execution time: 551.209 ms
そして、同じ時間範囲句を使用すると、1秒未満かかります。
account=> EXPLAIN ANALYZE VERBOSE SELECT COUNT(*) FROM account_history WHERE event_time BETWEEN now() - interval '51 weeks' AND now();
Aggregate (cost=93527.57..93527.58 rows=1 width=0) (actual time=997.436..997.436 rows=1 loops=1)
Output: count(*)
-> Index Only Scan using account_history_time_idx on public.account_history (cost=0.44..87800.45 rows=2290849 width=0) (actual time=0.100..897.776 rows=2313987 loops=1)
Output: event_time
Index Cond: ((account_history.event_time >= (now() - '357 days'::interval)) AND (account_history.event_time <= now()))
Heap Fetches: 2313987
Planning time: 0.239 ms
Execution time: 997.473 ms
コメントに基づいて、クエリの簡略化された形式を試しました。
account=> EXPLAIN ANALYZE VERBOSE SELECT date_trunc('week', event_time) AS date, count(DISTINCT account) FROM account_history
WHERE event_time BETWEEN now() - interval '51 weeks' AND now() GROUP BY date ORDER BY date;
GroupAggregate (cost=374676.22..420493.00 rows=2290839 width=12) (actual time=2475.556..3078.191 rows=52 loops=1)
Output: (date_trunc('week'::text, event_time)), count(DISTINCT account)
Group Key: (date_trunc('week'::text, account_history.event_time))
-> Sort (cost=374676.22..380403.32 rows=2290839 width=12) (actual time=2468.654..2763.739 rows=2313977 loops=1)
Output: (date_trunc('week'::text, event_time)), account
Sort Key: (date_trunc('week'::text, account_history.event_time))
Sort Method: external merge Disk: 49720kB
-> Index Scan using account_history_time_idx on public.account_history (cost=0.44..93527.35 rows=2290839 width=12) (actual time=0.094..1537.488 rows=2313977 loops=1)
Output: date_trunc('week'::text, event_time), account
Index Cond: ((account_history.event_time >= (now() - '357 days'::interval)) AND (account_history.event_time <= now()))
Planning time: 0.220 ms
Execution time: 3086.828 ms
(12 rows)
account=> SELECT date_trunc('week', current_date) AS date, count(DISTINCT account) FROM account_history WHERE event_time BETWE
EN now() - interval '51 weeks' AND now() GROUP BY date ORDER BY date;
date | count
------------------------+-------
2017-10-23 00:00:00-04 | 132
(1 row)
実際、実行時間は半分に短縮されましたが、次のように残念ながら望ましい結果は得られません。
account=> SELECT to_timestamp(to_char(date_trunc('week', event_time), 'IYYY-IW'), 'IYYY-IW')::date AS date, count(DISTINCT account) FROM account_history WHERE event_time BETWEEN now() - interval '51 weeks' AND now() GROUP BY date ORDER BY date;
date | count
------------+-------
2016-10-31 | 14
...
2017-10-23 | 584
(52 rows)
これらのレコードを週ごとに集計するより安価な方法を見つけることができれば、この問題の解決に大きく役立ちます。
テーブルの変更を含め、GROUP BY
句を使用した週次クエリのパフォーマンスを向上させるための提案があれば、いつでも受け付けます。
テストとしてマテリアライズドビューを作成しましたが、もちろん更新には元のクエリとまったく同じ時間がかかります。そのため、1日に数回しか更新しない限り、追加することを犠牲にしても効果はありません。複雑:
account=> CREATE MATERIALIZED VIEW account_activity_weekly AS SELECT to_timestamp(to_char(date_trunc('week', event_time), 'IYYY-IW'), 'IYYY-IW')::date AS date, count(DISTINCT account) FROM account_history WHERE event_time BETWEEN now() - interval '51 weeks' AND now() GROUP BY date ORDER BY date;
SELECT 52
追加のコメントに基づいて、クエリを次のように修正しました。これにより、実行時間が半分になり、期待される結果セットが得られます。
account=> EXPLAIN ANALYZE VERBOSE SELECT to_timestamp(to_char(date_trunc('week', event_time), 'IYYY-IW'), 'IYYY-IW')::date AS date, count(DISTINCT account) FROM account_history WHERE event_time BETWEEN now() - interval '51 weeks' AND now() GROUP BY date_trunc('week', event_time) ORDER BY date;
Sort (cost=724523.11..730249.97 rows=2290745 width=12) (actual time=3188.495..3188.496 rows=52 loops=1)
Output: ((to_timestamp(to_char((date_trunc('week'::text, event_time)), 'IYYY-IW'::text), 'IYYY-IW'::text))::date), (count(DISTINCT account)), (date_trunc('week'::text, event_time))
Sort Key: ((to_timestamp(to_char((date_trunc('week'::text, account_history.event_time)), 'IYYY-IW'::text), 'IYYY-IW'::text))::date)
Sort Method: quicksort Memory: 29kB
-> GroupAggregate (cost=374662.50..443384.85 rows=2290745 width=12) (actual time=2573.694..3188.451 rows=52 loops=1)
Output: (to_timestamp(to_char((date_trunc('week'::text, event_time)), 'IYYY-IW'::text), 'IYYY-IW'::text))::date, count(DISTINCT account), (date_trunc('week'::text, event_time))
Group Key: (date_trunc('week'::text, account_history.event_time))
-> Sort (cost=374662.50..380389.36 rows=2290745 width=12) (actual time=2566.086..2859.590 rows=2313889 loops=1)
Output: (date_trunc('week'::text, event_time)), event_time, account
Sort Key: (date_trunc('week'::text, account_history.event_time))
Sort Method: external merge Disk: 67816kB
-> Index Scan using account_history_time_idx on public.account_history (cost=0.44..93524.23 rows=2290745 width=12) (actual time=0.090..1503.985 rows=2313889 loops=1)
Output: date_trunc('week'::text, event_time), event_time, account
Index Cond: ((account_history.event_time >= (now() - '357 days'::interval)) AND (account_history.event_time <= now()))
Planning time: 0.205 ms
Execution time: 3198.125 ms
(16 rows)
コメントに貢献してくれた人々のおかげで、私はクエリ時間を〜8000ミリ秒から〜1650ミリ秒に短縮しました:
date_trunc('week', event_time)
をGROUP BY
句に追加する)(約3000ミリ秒の改善)。参考までに、現在のテーブル構造と実行プランを以下に示します。
複数の列にインデックスを付ける他のバリエーションを試してみましたが、実行プランではこれらのインデックスは使用されませんでした。
さらに、別のコメントのアドバイスを受けて、次の手順を実行しました(続いてVACUUMおよびREINDEX)。
WITHOUT TIME ZONE
からWITH TIME ZONE
に変換しましたpostgresql.conf
を使用)。ALTER TABLE account_history ALTER event_time TYPE timestamptz USING event_time AT TIME ZONE 'UTC';
ALTER TABLE account_history ALTER COLUMN description DROP NOT NULL;
ALTER TABLE account_history ALTER COLUMN description DROP DEFAULT;
UPDATE account_history SET description=NULL WHERE description='';
VACUUM FULL;
REINDEX TABLE account_history;
account=> show work_mem;
work_mem
----------
100MB
これらの追加の変更により、実行時間がさらに400ミリ秒短縮され、計画時間も短縮されました。注意すべきことの1つは、sortメソッドが「外部ソート」から「外部マージ」に変更されたことです。 「ディスク」がまだソートに使用されていたので、work_memを200MBに増やした結果、クイックソート(メモリー)メソッドが使用されました(176MB)。これにより、実行時間が1秒短縮されました(ただし、サーバーインスタンスで使用するには高すぎるためです)。
更新されたテーブルと実行プランは以下のとおりです。
account=> \d account_history
Table "public.account_history"
Column | Type | Modifiers
-------------+--------------------------+------------------------
account | integer | not null
event_code | text | not null
event_time | timestamp with time zone | not null default now()
description | text |
Indexes:
"account_history_account_idx" btree (account)
"account_history_account_time_idx" btree (event_time DESC, account)
"account_history_time_idx" btree (event_time DESC)
Foreign-key constraints:
"account_fk" FOREIGN KEY (account) REFERENCES account(id) ON UPDATE CASCADE ON DELETE RESTRICT
"event_code_fk" FOREIGN KEY (event_code) REFERENCES domain_account_event(code) ON UPDATE CASCADE ON DELETE RESTRICT
account=> EXPLAIN ANALYZE VERBOSE SELECT date_trunc('week', event_time) AS date, count(DISTINCT account) FROM account_history WHERE event_time BETWEEN now() - interval '51 weeks' AND now() GROUP BY date ORDER BY date;
GroupAggregate (cost=334034.60..380541.52 rows=2325346 width=12) (actual time=1307.742..1685.676 rows=52 loops=1)
Output: (date_trunc('week'::text, event_time)), count(DISTINCT account)
Group Key: (date_trunc('week'::text, account_history.event_time))
-> Sort (cost=334034.60..339847.97 rows=2325346 width=12) (actual time=1303.565..1361.540 rows=2312418 loops=1)
Output: (date_trunc('week'::text, event_time)), account
Sort Key: (date_trunc('week'::text, account_history.event_time))
Sort Method: quicksort Memory: 176662kB
-> Index Only Scan using account_history_account_time_idx on public.account_history (cost=0.44..88140.73 rows=2325346 width=12) (actual time=0.028..980.822 rows=2312418 loops=1)
Output: date_trunc('week'::text, event_time), account
Index Cond: ((account_history.event_time >= (now() - '357 days'::interval)) AND (account_history.event_time <= now()))
Heap Fetches: 0
Planning time: 0.153 ms
Execution time: 1697.824 ms
これまでの改善には非常に満足していますが、このクエリのパフォーマンスを改善するための他の貢献を歓迎します。これは、私のビューの1つでまだ最も遅いクエリだからです。
クエリの問題間の簡単な日付を解決します。日付をUnix時間(UTC)に変換しました(「秒」の精度のみが必要でしたが、必要に応じてさらに細かくすることができます)次に、日付をbigint/longに変換するメソッドを作成します(ここにタイムゾーン変換を含めます)。次にクエリを実行し、2つの整数の間を検索します。少しワイルドに聞こえるかもしれませんが、夢のように動作します。