3,319,097行を含む ip2location_db11 liteデータベース のコピーをインポートし、数値範囲クエリを最適化しようとしています。この場合、低い値と高い値がテーブルの別々の列にあります(ip_from
、ip_to
)。
データベースのインポート:
CREATE TABLE ip2location_db11
(
ip_from bigint NOT NULL, -- First IP address in netblock.
ip_to bigint NOT NULL, -- Last IP address in netblock.
country_code character(2) NOT NULL, -- Two-character country code based on ISO 3166.
country_name character varying(64) NOT NULL, -- Country name based on ISO 3166.
region_name character varying(128) NOT NULL, -- Region or state name.
city_name character varying(128) NOT NULL, -- City name.
latitude real NOT NULL, -- City latitude. Default to capital city latitude if city is unknown.
longitude real NOT NULL, -- City longitude. Default to capital city longitude if city is unknown.
Zip_code character varying(30) NOT NULL, -- Zip/Postal code.
time_zone character varying(8) NOT NULL, -- UTC time zone (with DST supported).
CONSTRAINT ip2location_db11_pkey PRIMARY KEY (ip_from, ip_to)
);
\copy ip2location_db11 FROM 'IP2LOCATION-LITE-DB11.CSV' WITH CSV QUOTE AS '"';
私の最初の単純なインデックス作成の試みは、これらの列のそれぞれに個別のインデックスを作成することでした。その結果、クエリ時間が400ミリ秒の順次スキャンが発生しました。
account=> CREATE INDEX ip_from_db11_idx ON ip2location_db11 (ip_from);
account=> CREATE INDEX ip_to_db11_idx ON ip2location_db11 (ip_to);
account=> EXPLAIN ANALYZE VERBOSE SELECT * FROM ip2location_db11 WHERE 2538629520 BETWEEN ip_from AND ip_to;
QUERY PLAN
----------------------------------------------------------------------------------------------------------------------------------------------------
Seq Scan on public.ip2location_db11 (cost=0.00..48930.99 rows=43111 width=842) (actual time=286.714..401.805 rows=1 loops=1)
Output: ip_from, ip_to, country_code, country_name, region_name, city_name, latitude, longitude, Zip_code, time_zone
Filter: (('2538629520'::bigint >= ip2location_db11.ip_from) AND ('2538629520'::bigint <= ip2location_db11.ip_to))
Rows Removed by Filter: 3319096
Planning time: 0.155 ms
Execution time: 401.834 ms
(6 rows)
account=> \d ip2location_db11
Table "public.ip2location_db11"
Column | Type | Modifiers
--------------+------------------------+-----------
ip_from | bigint | not null
ip_to | bigint | not null
country_code | character(2) | not null
country_name | character varying(64) | not null
region_name | character varying(128) | not null
city_name | character varying(128) | not null
latitude | real | not null
longitude | real | not null
Zip_code | character varying(30) | not null
time_zone | character varying(8) | not null
Indexes:
"ip2location_db11_pkey" PRIMARY KEY, btree (ip_from, ip_to)
"ip_from_db11_idx" btree (ip_from)
"ip_to_db11_idx" btree (ip_to)
私の2番目の試みは、複数列のbtreeインデックスを作成することでした。これにより、クエリ時間が290ミリ秒のインデックススキャンが行われました。
account=> CREATE INDEX ip_range_db11_idx ON ip2location_db11 (ip_from,ip_to);
account=> EXPLAIN ANALYZE VERBOSE SELECT * FROM ip2location_db11 WHERE 2538629520 BETWEEN ip_from AND ip_to;
QUERY PLAN
----------------------------------------------------------------------------------------------------------------------------------------------------
Index Scan using ip_to_db11_idx on public.ip2location_db11 (cost=0.43..51334.91 rows=756866 width=69) (actual time=1.109..289.143 rows=1 loops=1)
Output: ip_from, ip_to, country_code, country_name, region_name, city_name, latitude, longitude, Zip_code, time_zone
Index Cond: ('2538629520'::bigint <= ip2location_db11.ip_to)
Filter: ('2538629520'::bigint >= ip2location_db11.ip_from)
Rows Removed by Filter: 1160706
Planning time: 0.324 ms
Execution time: 289.172 ms
(7 rows)
n4l_account=> \d ip2location_db11
Table "public.ip2location_db11"
Column | Type | Modifiers
--------------+------------------------+-----------
ip_from | bigint | not null
ip_to | bigint | not null
country_code | character(2) | not null
country_name | character varying(64) | not null
region_name | character varying(128) | not null
city_name | character varying(128) | not null
latitude | real | not null
longitude | real | not null
Zip_code | character varying(30) | not null
time_zone | character varying(8) | not null
Indexes:
"ip2location_db11_pkey" PRIMARY KEY, btree (ip_from, ip_to)
"ip_from_db11_idx" btree (ip_from)
"ip_range_db11_idx" btree (ip_from, ip_to)
"ip_to_db11_idx" btree (ip_to)
更新:コメントでリクエストされたとおり、上記のクエリを再実行しました。テーブルを再作成した後の最初の15クエリのタイミング(165ms、65ms、86ms、83ms、86ms、64ms、85ms、811ms、868ms、845ms、810ms、781ms、797ms、890ms、806ms):
account=> EXPLAIN (ANALYZE, VERBOSE, BUFFERS, TIMING) SELECT * FROM ip2location_db11 WHERE 2538629520 BETWEEN ip_from AND ip_to;
QUERY PLAN
------------------------------------------------------------------------------------------------------------------------------------------
Bitmap Heap Scan on public.ip2location_db11 (cost=28200.29..76843.12 rows=368789 width=842) (actual time=64.866..64.866 rows=1 loops=1)
Output: ip_from, ip_to, country_code, country_name, region_name, city_name, latitude, longitude, Zip_code, time_zone
Recheck Cond: (('2538629520'::bigint >= ip2location_db11.ip_from) AND ('2538629520'::bigint <= ip2location_db11.ip_to))
Heap Blocks: exact=1
Buffers: shared hit=8273
-> Bitmap Index Scan on ip_range_db11_idx (cost=0.00..28108.09 rows=368789 width=0) (actual time=64.859..64.859 rows=1 loops=1)
Index Cond: (('2538629520'::bigint >= ip2location_db11.ip_from) AND ('2538629520'::bigint <= ip2location_db11.ip_to))
Buffers: shared hit=8272
Planning time: 0.099 ms
Execution time: 64.907 ms
(10 rows)
account=> EXPLAIN (ANALYZE, VERBOSE, BUFFERS, TIMING) SELECT * FROM ip2location_db11 WHERE 2538629520 BETWEEN ip_from AND ip_to;
QUERY PLAN
-------------------------------------------------------------------------------------------------------------------------------
Seq Scan on public.ip2location_db11 (cost=0.00..92906.18 rows=754776 width=69) (actual time=577.234..811.757 rows=1 loops=1)
Output: ip_from, ip_to, country_code, country_name, region_name, city_name, latitude, longitude, Zip_code, time_zone
Filter: (('2538629520'::bigint >= ip2location_db11.ip_from) AND ('2538629520'::bigint <= ip2location_db11.ip_to))
Rows Removed by Filter: 3319096
Buffers: shared hit=33 read=43078
Planning time: 0.667 ms
Execution time: 811.783 ms
(7 rows)
インポートしたCSVファイルのサンプル行:
"0","16777215","-","-","-","-","0.000000","0.000000","-","-"
"16777216","16777471","AU","Australia","Queensland","Brisbane","-27.467940","153.028090","4000","+10:00"
"16777472","16778239","CN","China","Fujian","Fuzhou","26.061390","119.306110","350004","+08:00"
クエリを改善するこのテーブルにインデックスを付けるより良い方法はありますか、または同じ結果を得るより効率的なクエリはありますか?
これは、空間インデックスを使用していくつかのトリックを実行することを含む、すでに提供されているソリューションとは少し異なるソリューションです。
代わりに、IPアドレスを使用すると、範囲を重複させることはできません。つまり、_A -> B
_は_X -> Y
_と交差することはできません。これを知っていれば、SELECT
クエリを少し変更して、この特性を利用できます。この特性を利用する場合、「賢い」索引付けをまったく行う必要はありません。実際、_ip_from
_列のインデックスを作成するだけです。
以前は、分析されていたクエリは次のとおりでした。
_SELECT * FROM ip2location_db11 WHERE 2538629520 BETWEEN ip_from AND ip_to;
_
_2538629520
_が入る範囲が偶然に_2538629512
_と_2538629537
_であると仮定しましょう。
注:範囲が何であるかは実際には関係ありません。これは、私たちが利用できるパターンを示すのに役立つだけです。
これから、次の_ip_from
_値は_2538629538
_であると想定できます。実際には、この_ip_from
_値を超えるレコードについて心配する必要はありません。実際、私たちが実際に気にするのは、_ip_from
_ equals _2538629512
_の範囲です。
この事実を知って、私たちのクエリは実際には(英語で)なります:
IPアドレスが_
ip_from
_よりも大きいmaximum _ip_from
_値を見つけてください。この値が見つかったレコードを表示してください。または言い換えると、IPアドレスの直前にある_
ip_from
_の値を見つけて、そのレコードを入手してください。
_ip_from
_から_ip_to
_までの範囲が重複することはないため、これは真であり、クエリを次のように記述できます。
_SELECT *
FROM ip2location
WHERE ip_from = (
SELECT MAX(ip_from)
FROM ip2location
WHERE ip_from <= 2538629520
)
_
インデックス作成に戻り、これらすべてを活用します。実際に調べているのはip_fromだけで、整数の比較を行っています。 MIN(ip_from)は、PostgreSQLに利用可能な最初のレコードを検索させます。私たちはその権利を追求することができ、他のレコードについてまったく心配する必要がないため、これは良いことです。
本当に必要なのは、次のようなインデックスです。
CREATE UNIQUE INDEX CONCURRENTLY ix_ip2location_ipFrom ON public.ip2location(ip_from)
重複するレコードがないため、インデックスを一意にすることができます。私もこのコラムを主キーにします。
このインデックスとこのクエリを使用すると、説明プランは次のようになります。
_Index Scan using ix_ip2location_ipfrom on public.ip2location (cost=0.90..8.92 rows=1 width=69) (actual time=0.530..0.533 rows=1 loops=1)
Output: ip2location.ip_from, ip2location.ip_to, ip2location.country_code, ip2location.country_name, ip2location.region_name, ip2location.city_name, ip2location.latitude, ip2location.longitude, ip2location.Zip_code, ip2location.time_zone
Index Cond: (ip2location.ip_from = $1)
InitPlan 2 (returns $1)
-> Result (cost=0.46..0.47 rows=1 width=8) (actual time=0.452..0.452 rows=1 loops=1)
Output: $0
InitPlan 1 (returns $0)
-> Limit (cost=0.43..0.46 rows=1 width=8) (actual time=0.443..0.444 rows=1 loops=1)
Output: ip2location_1.ip_from
-> Index Only Scan using ix_ip2location_ipfrom on public.ip2location ip2location_1 (cost=0.43..35440.79 rows=1144218 width=8) (actual time=0.438..0.438 rows=1 loops=1)
Output: ip2location_1.ip_from
Index Cond: ((ip2location_1.ip_from IS NOT NULL) AND (ip2location_1.ip_from >= '2538629520'::bigint))
Heap Fetches: 0
_
このアプローチでクエリのパフォーマンスが向上することを理解するために、Raspberry Piでテストしました。元のアプローチには約4秒かかりました。このアプローチには約120msかかります。大きな勝利は、個々の行のシークとスキャンの比較です。結果で考慮される必要があるテーブルの数が増えるため、元のクエリでは範囲の値が非常に低くなります。このクエリは、値の範囲全体で一貫したパフォーマンスを示します。
これがお役に立てば幸いです。私の説明が皆さんにとって理にかなっています。
コメントのおかげで、Gist空間インデックスを使用し、それに応じてクエリを調整することで、クエリ時間を0.073msに短縮したソリューションがあります。
account=> DROP INDEX ip_to_db11_idx;
account=> DROP INDEX ip_from_db11_idx;
account=> DROP INDEX ip_range_db11_idx;
account=> CREATE INDEX ip2location_db11_Gist ON ip2location_db11 USING Gist ((box(point(ip_from,ip_from),point(ip_to,ip_to))) box_ops);
account=> EXPLAIN ANALYZE VERBOSE SELECT * FROM ip2location_db11 WHERE box(point(ip_from,ip_from),point(ip_to,ip_to)) @> box(point (2538629520,2538629520), point(2538629520,2538629520));
QUERY PLAN
------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Bitmap Heap Scan on public.ip2location_db11 (cost=190.14..10463.13 rows=3319 width=69) (actual time=0.032..0.033 rows=1 loops=1)
Output: ip_from, ip_to, country_code, country_name, region_name, city_name, latitude, longitude, Zip_code, time_zone
Recheck Cond: (box(point((ip2location_db11.ip_from)::double precision, (ip2location_db11.ip_from)::double precision),
point((ip2location_db11.ip_to)::double precision, (ip2location_db11.ip_to)::double precision)) @> '(2538629520,2538629520),(2538629520,2538629520)'::box)
Heap Blocks: exact=1
-> Bitmap Index Scan on ip2location_db11_Gist (cost=0.00..189.31 rows=3319 width=0) (actual time=0.022..0.022 rows=1 loops=1)
Index Cond: (box(point((ip2location_db11.ip_from)::double precision, (ip2location_db11.ip_from)::double precision), point((ip2location_db11.ip_to)::double precision, (ip2location_db11.ip_to)::double precision)) @> '(2538629520,2538629520),(2538629520,2538629520)'::box)
Planning time: 2.119 ms
Execution time: 0.073 ms
(8 rows)
引用:
ip4r
まず、Githubに拡張機能(より適切な指示)をビルドして追加します。
CREATE EXTENSION ip4r;
以前とほぼ同じことから始めて、代わりにip4
としてIPタイプを作成します。 PRIMARY KEY
を何も作成せず、型にインデックスを追加しません。ロード後にテーブルを変更します。
CREATE TABLE ip2location_db11
(
ip_from ip4 NOT NULL, -- First IP address in netblock.
ip_to ip4 NOT NULL, -- Last IP address in netblock.
....
);
\copy ip2location_db11 FROM 'IP2LOCATION-LITE-DB11.CSV' WITH CSV QUOTE AS '"';
次に、それらをip4r
にアップグレードします
BEGIN;
ALTER TABLE ip2location_db11
ADD iploc_range ip4r;
UPDATE ip2location_db11
SET iploc_range = ip4r(ip_from,ip_to);
ALTER TABLE ip2location_db11
DROP COLUMN ip_from,
DROP COLUMN ip_to;
COMMIT;
では、インデックスを作成しましょう
CREATE INDEX ON ip2location_db11
USING Gist (iploc_range);
VACUUM ANALYZE ip2location_db11;
そしてそれについて質問し、
SELECT *
FROM ip2location_db11
WHERE iploc_range >>= '1.2.3.4';