基本的に、次のようにUNION ALL
を含む2つのSELECT
クエリで構成されるDBビューがあります。
CREATE VIEW v AS
SELECT time, etc. FROM t1 // #1...
UNION ALL
SELECT time, etc. FROM t2 // #2...
問題は、フォームの選択です
SELECT ... FROM v WHERE time >= ... AND time < ...
それで本当に本当に遅いパフォーマンス。
SELECT#1と#2はどちらもかなり高速で、適切にインデックスが付けられているなどです。ビューv1とv2を作成すると、次のようになります。
CREATE VIEW v1 AS
SELECT time, etc. FROM t1 // #1...
CREATE VIEW v2 AS
SELECT time, etc. FROM t2 // #2...
そして、上記と同じWHERE条件を持つ同じSELECTは、それらに対して個別に正常に機能します。
問題がどこにあるのか、そしてそれをどのように解決するのかについてのアイデアはありますか?
(言うまでもなく、これは最近のPostgresバージョンの1つです。)
編集:匿名化されたクエリプランの追加(素晴らしいツールへのリンクについては@filipremに感謝します):
v1:
Aggregate (cost=9825.510..9825.520 rows=1 width=53) (actual time=59.995..59.995 rows=1 loops=1)
-> Index Scan using delta on echo alpha (cost=0.000..9815.880 rows=3850 width=53) (actual time=0.039..53.418 rows=33122 loops=1)
Index Cond: (("juliet" >= 'seven'::uniform bravo_victor oscar whiskey) AND ("juliet" <= 'november'::uniform bravo_victor oscar whiskey))
Filter: ((NOT victor) AND ((bravo_sierra five NULL) OR ((bravo_sierra)::golf <> 'india'::golf)))
v2:
Aggregate (cost=15.470..15.480 rows=1 width=33) (actual time=0.231..0.231 rows=1 loops=1)
-> Index Scan using yankee on six charlie (cost=0.000..15.220 rows=99 width=33) (actual time=0.035..0.186 rows=140 loops=1)
Index Cond: (("juliet" >= 'seven'::uniform bravo oscar whiskey) AND ("juliet" <= 'november'::uniform bravo oscar whiskey))
Filter: (NOT victor)
v:
Aggregate (cost=47181.850..47181.860 rows=1 width=0) (actual time=37317.291..37317.291 rows=1 loops=1)
-> Append (cost=42.170..47132.480 rows=3949 width=97) (actual time=1.277..37304.453 rows=33262 loops=1)
-> Nested Loop Left Join (cost=42.170..47052.250 rows=3850 width=99) (actual time=1.275..37288.465 rows=33122 loops=1)
-> Hash Left Join (cost=42.170..9910.990 rows=3850 width=115) (actual time=1.123..117.797 rows=33122 loops=1)
Hash Cond: ((alpha_seven.two)::golf = (quebec_three.two)::golf)
-> Index Scan using delta on echo alpha_seven (cost=0.000..9815.880 rows=3850 width=132) (actual time=0.038..77.866 rows=33122 loops=1)
Index Cond: (("juliet" >= 'seven'::uniform bravo_victor oscar whiskey_two) AND ("juliet" <= 'november'::uniform bravo_victor oscar whiskey_two))
Filter: ((NOT victor) AND ((bravo_sierra five NULL) OR ((bravo_sierra)::golf <> 'india'::golf)))
-> Hash (cost=30.410..30.410 rows=941 width=49) (actual time=1.068..1.068 rows=941 loops=1)
Buckets: 1024 Batches: 1 Memory Usage: 75kB
-> Seq Scan on alpha_india quebec_three (cost=0.000..30.410 rows=941 width=49) (actual time=0.010..0.486 rows=941 loops=1)
-> Index Scan using mike on hotel quebec_sierra (cost=0.000..9.630 rows=1 width=24) (actual time=1.112..1.119 rows=1 loops=33122)
Index Cond: ((alpha_seven.zulu)::golf = (quebec_sierra.zulu)::golf)
-> Subquery Scan on "*SELECT* 2" (cost=34.080..41.730 rows=99 width=38) (actual time=1.081..1.951 rows=140 loops=1)
-> Merge Right Join (cost=34.080..40.740 rows=99 width=38) (actual time=1.080..1.872 rows=140 loops=1)
Merge Cond: ((quebec_three.two)::golf = (charlie.two)::golf)
-> Index Scan using whiskey_golf on alpha_india quebec_three (cost=0.000..174.220 rows=941 width=49) (actual time=0.017..0.122 rows=105 loops=1)
-> Sort (cost=18.500..18.750 rows=99 width=55) (actual time=0.915..0.952 rows=140 loops=1)
Sort Key: charlie.two
Sort Method: quicksort Memory: 44kB
-> Index Scan using yankee on six charlie (cost=0.000..15.220 rows=99 width=55) (actual time=0.022..0.175 rows=140 loops=1)
Index Cond: (("juliet" >= 'seven'::uniform bravo_victor oscar whiskey_two) AND ("juliet" <= 'november'::uniform bravo_victor oscar whiskey_two))
Filter: (NOT victor)
juliet
はtime
です。
これはパイロットエラーの場合のようです。 「v」クエリプランは、少なくとも5つの異なるテーブルから選択します。
さて、あなたは正しいデータベースに接続していると確信していますか?たぶん、いくつかのファンキーなsearch_path設定がありますか?たぶんt1とt2は実際にはビューです(おそらく別のスキーマにあります)?多分あなたはどういうわけか間違ったビューから選択していますか?
明確化後に編集:
「結合の削除」と呼ばれるまったく新しい機能を使用しています: http://wiki.postgresql.org/wiki/What%27s_new_in_PostgreSQL_9.0#Join_Removal
http://rhaas.blogspot.com/2010/06/why-join-removal-is-cool.html
ユニオンオールが関与している場合、この機能は機能しないようです。おそらく、必要な2つのテーブルのみを使用してビューを書き直す必要があります。
別の編集:集計を使用しているようです(「selectcount(*)fromv」と「select * from v」など)。これにより、結合の削除に直面して大幅に異なるプランが取得される可能性があります。実際のクエリ、ビューとテーブルの定義、および使用された計画を投稿しない限り、私たちはそれほど遠くまでは行かないと思います...
クエリは次のように実行されていると思います。
(
( SELECT time, etc. FROM t1 // #1... )
UNION ALL
( SELECT time, etc. FROM t2 // #2... )
)
WHERE time >= ... AND time < ...
オプティマイザが最適化に問題を抱えています。つまり、WHERE
句を適用する前に最初にUNION ALL
を実行しますが、WHERE
句を適用する必要があります 前UNION ALL
。
WHERE
句をCREATE VIEW
に入れられませんか?
CREATE VIEW v AS
( SELECT time, etc. FROM t1 WHERE time >= ... AND time < ... )
UNION ALL
( SELECT time, etc. FROM t2 WHERE time >= ... AND time < ... )
あるいは、ビューにWHERE
句を含めることができない場合は、2つのビューを保持し、必要なときにWHERE
句を使用してUNION ALL
を実行できます。
CREATE VIEW v1 AS
SELECT time, etc. FROM t1 // #1...
CREATE VIEW v2 AS
SELECT time, etc. FROM t2 // #2...
( SELECT * FROM v1 WHERE time >= ... AND time < ... )
UNION ALL
( SELECT * FROM v2 WHERE time >= ... AND time < ... )
Postgresはわかりませんが、一部のRMDBは、インデックスの場合、BETWEENよりも悪い比較演算子を処理します。私はBETWEENを使って試みます。
SELECT ... FROM v WHERE time BETWEEN ... AND ...
2つのテーブルを組み合わせます。元のテーブルを示す列を追加します。必要に応じて、元のテーブル名を、関連する部分のみを選択するビューに置き換えます。問題が解決しました!
スーパークラス/サブクラスのdbデザインパターンを調べることはあなたに役立つかもしれません。
ビューを作成する代わりに、呼び出しごとに動的に新しいSQLを発行し、ユニオンクエリの各SELECTにwhere句を統合する可能性があります。
SELECT time, etc. FROM t1
WHERE time >= ... AND time < ...
UNION ALL
SELECT time, etc. FROM t2
WHERE time >= ... AND time < ...
編集:
パラメータ化された関数を使用できますか?
CREATE OR REPLACE FUNCTION CallMyView(t1 date, t2 date)
RETURNS TABLE(d date, etc.)
AS $$
BEGIN
RETURN QUERY
SELECT time, etc. FROM t1
WHERE time >= t1 AND time < t2
UNION ALL
SELECT time, etc. FROM t2
WHERE time >= t1 AND time < t2;
END;
$$ LANGUAGE plpgsql;
コール
SELECT * FROM CallMyView(..., ...);
11gで同じシナリオが発生しました:
シナリオ1:
CREATE VIEW v AS
SELECT time, etc. FROM t1 // #1...
次のクエリは高速に実行され、計画は問題ないように見えます。
SELECT ... FROM v WHERE time >= ... AND time < ...
シナリオ2:
CREATE VIEW v AS
SELECT time, etc. FROM t2 // #2...
次のクエリは高速に実行され、計画は問題ないように見えます。
SELECT ... FROM v WHERE time >= ... AND time < ...
シナリオ3、UNION ALL:
CREATE VIEW v AS
SELECT time, etc. FROM t1 // #1...
UNION ALL
SELECT time, etc. FROM t2 // #2...
次の実行は遅くなります。 Planはt1とt2(これもビューでした)を分解し、それらを大きな一連のユニオンとして組み立てます。時間フィルターは個々のコンポーネントに適切に適用されていますが、それでも非常に遅いです。
SELECT ... FROM v WHERE time >= ... AND time < ...
T1とt2の球場で時間を過ごせたらよかったのですが、2倍以上でした。この場合、parallel
ヒントを追加することでうまくいきました。それはすべてをより良い計画に再編成しました:
SELECT /*+ parallel */ ... FROM v WHERE time >= ... AND time < ...
UNIONALLの代わりにUNIONDISTINCTを使用してビューを作成してみてください。間違った結果が出ないか確認してください。パフォーマンスが向上するかどうかを確認してください。
間違った結果が得られる場合は、テーブルに対するSQL操作をリレーションに対するリレーショナル操作にマップしてみてください。関係の要素は常に異なります。モデルに根本的な問題がある可能性があります。
私はあなたが示したクエリプランのLEFTJOINSを深く疑っています。選択しているように見える結果を得るために、LEFTJOINSを実行する必要はありません。