巨大なテーブルの順序付けられた列の最後のnull以外の値を取得するにはどうすればよいですか?
次の入力があります。
id | value
----+-------
1 | 136
2 | NULL
3 | 650
4 | NULL
5 | NULL
6 | NULL
7 | 954
8 | NULL
9 | 104
10 | NULL
私は次の結果を期待します:
id | value
----+-------
1 | 136
2 | 136
3 | 650
4 | 650
5 | 650
6 | 650
7 | 954
8 | 954
9 | 104
10 | 104
簡単な解決策は、<
リレーション、そしてMAX
値をGROUP BY
:
WITH tmp AS (
SELECT t2.id, MAX(t1.id) AS lastKnownId
FROM t t1, t t2
WHERE
t1.value IS NOT NULL
AND
t2.id >= t1.id
GROUP BY t2.id
)
SELECT
tmp.id, t.value
FROM t, tmp
WHERE t.id = tmp.lastKnownId;
ただし、このコードを簡単に実行すると、入力テーブルの行数の二乗が内部的に作成されます(O(n ^ 2))。私はt-sqlがそれを最適化することを期待しました-ブロック/レコードレベルでは、実行するタスクは非常に簡単で線形であり、本質的にはforループ(O(n))。
ただし、私の実験では、最新のMS SQL 2016ではこのクエリを正しく最適化できないため、このクエリを大きな入力テーブルに対して実行することはできません。
さらに、クエリはすばやく実行する必要があるため、同様に簡単な(ただし非常に異なる)カーソルベースのソリューションを実行できません。
メモリを利用した一時テーブルを使用することは良い妥協案になるかもしれませんが、サブクエリを使用したサンプルクエリが機能しなかったことを考えると、それを大幅に速く実行できるかどうかはわかりません。
私はまた、t-sqlのドキュメントからウィンドウ関数を掘り出すことを考えています。たとえば、 cumulative sum は非常によく似ていますが、それをだまして最新のnull以外の要素を与えることはできず、以前の要素の合計を与えることはできませんでした。
理想的なソリューションは、手続き型コードや一時テーブルを使用しない迅速なクエリです。または、一時テーブルを使用するソリューションも問題ありませんが、テーブルを手続き的に反復することはできません。
このタイプの問題に対する一般的な解決策は、Itzik Ben-Ganの記事 The Last non NULL Puzzle で提供されています。
DROP TABLE IF EXISTS dbo.Example;
CREATE TABLE dbo.Example
(
id integer PRIMARY KEY,
val integer NULL
);
INSERT dbo.Example
(id, val)
VALUES
(1, 136),
(2, NULL),
(3, 650),
(4, NULL),
(5, NULL),
(6, NULL),
(7, 954),
(8, NULL),
(9, 104),
(10, NULL);
SELECT
E.id,
E.val,
lastval =
CAST(
SUBSTRING(
MAX(CAST(E.id AS binary(4)) + CAST(E.val AS binary(4))) OVER (
ORDER BY E.id
ROWS UNBOUNDED PRECEDING),
5, 4)
AS integer)
FROM dbo.Example AS E
ORDER BY
E.id;
デモ: db <> fiddle
私はt-sqlがそれを最適化することを期待しました-ブロック/レコードレベルでは、実行するタスクは非常に簡単で線形であり、本質的にforループ(O(n))です)。
それはあなたが書いたクエリではありません。これは、テーブルスキーマの細部に応じて記述したクエリとは異なる場合があります。クエリオプティマイザーに期待しすぎています。
適切なインデックスを使用すると、次のT-SQLを介して求めるアルゴリズムを取得できます。
SELECT t1.id, ca.[VALUE]
FROM dbo.[BIG_TABLE(FOR_U)] t1
CROSS APPLY (
SELECT TOP (1) [VALUE]
FROM dbo.[BIG_TABLE(FOR_U)] t2
WHERE t2.ID <= t1.ID AND t2.[VALUE] IS NOT NULL
ORDER BY t2.ID DESC
) ca; --ORDER BY t1.ID ASC
各行について、クエリプロセッサはインデックスを逆方向にたどり、[VALUE]
にnull以外の値を持つ行を検出すると停止します。私のマシンでは、これは 約90秒で終了します ソーステーブルの1億行に対して。クライアントがこれらの行をすべて破棄するのに時間がかかるため、クエリは必要以上に長く実行されます。
順序付けされた結果が必要かどうか、またはこのような大きな結果セットで何を行う予定かは、私にはわかりません。クエリは、実際のシナリオに合わせて調整できます。このアプローチの最大の利点は、クエリプランでの並べ替えが不要なことです。これは、より大きな結果セットに役立ちます。 1つの欠点は、多くの行がインデックスから読み取られて破棄されるため、テーブルに多くのNULLがある場合、パフォーマンスが最適にならないことです。その場合、NULLを除外するフィルター処理されたインデックスを使用してパフォーマンスを改善できるはずです。
テストのサンプルデータ:
DROP TABLE IF EXISTS #t;
CREATE TABLE #t (
ID BIGINT NOT NULL
);
INSERT INTO #t WITH (TABLOCK)
SELECT TOP (10000) ROW_NUMBER() OVER (ORDER BY (SELECT NULL)) - 1
FROM master..spt_values t1
CROSS JOIN master..spt_values t2
OPTION (MAXDOP 1);
DROP TABLE IF EXISTS dbo.[BIG_TABLE(FOR_U)];
CREATE TABLE dbo.[BIG_TABLE(FOR_U)] (
ID BIGINT NOT NULL,
[VALUE] BIGINT NULL
);
INSERT INTO dbo.[BIG_TABLE(FOR_U)] WITH (TABLOCK)
SELECT 10000 * t1.ID + t2.ID, CASE WHEN (t1.ID + t2.ID) % 3 = 1 THEN t2.ID ELSE NULL END
FROM #t t1
CROSS JOIN #t t2;
CREATE UNIQUE CLUSTERED INDEX ADD_ORDERING ON dbo.[BIG_TABLE(FOR_U)] (ID);
this source に基づくOVER()
とMAX()
とCOUNT()
を使用する1つの方法は、 :
SELECT ID, MAX(value) OVER (PARTITION BY Value2) as value
FROM
(
SELECT ID, value
,COUNT(value) OVER (ORDER BY ID) AS Value2
FROM dbo.HugeTable
) a
ORDER BY ID;
結果
Id UpdatedValue
1 136
2 136
3 650
4 650
5 650
6 650
7 954
8 954
9 104
10 104
this source に基づく別の方法、最初の例に密接に関連しています
;WITH CTE As
(
SELECT value,
Id,
COUNT(value)
OVER(ORDER BY Id) As Value2
FROM dbo.HugeTable
),
CTE2 AS (
SELECT Id,
value,
First_Value(value)
OVER( PARTITION BY Value2
ORDER BY Id) As UpdatedValue
FROM CTE
)
SELECT Id,UpdatedValue
FROM CTE2;