2つのシステム間でデータを変換する必要があります。
最初のシステムは、スケジュールを日付のプレーンリストとして保存します。スケジュールに含まれる各日付は1行です。日付の順序には、さまざまなギャップが存在する可能性があります(週末、祝日、長い一時停止、曜日によってはスケジュールから除外される場合があります)。週末も含めて、ギャップはまったくありません。スケジュールは最長2年まで可能です。通常は数週間です。
次に、週末を除く2週間にわたるスケジュールの簡単な例を示します(以下のスクリプトには、より複雑な例があります)。
+----+------------+------------+---------+--------+
| ID | ContractID | dt | dowChar | dowInt |
+----+------------+------------+---------+--------+
| 10 | 1 | 2016-05-02 | Mon | 2 |
| 11 | 1 | 2016-05-03 | Tue | 3 |
| 12 | 1 | 2016-05-04 | Wed | 4 |
| 13 | 1 | 2016-05-05 | Thu | 5 |
| 14 | 1 | 2016-05-06 | Fri | 6 |
| 15 | 1 | 2016-05-09 | Mon | 2 |
| 16 | 1 | 2016-05-10 | Tue | 3 |
| 17 | 1 | 2016-05-11 | Wed | 4 |
| 18 | 1 | 2016-05-12 | Thu | 5 |
| 19 | 1 | 2016-05-13 | Fri | 6 |
+----+------------+------------+---------+--------+
ID
は一意ですが、必ずしも順次である必要はありません(主キーです)。日付は各契約内で一意です((ContractID, dt)
には一意のインデックスがあります)。
2番目のシステムは、スケジュールの一部である曜日のリストを含む間隔としてスケジュールを格納します。各間隔は、開始日と終了日(両端を含む)、およびスケジュールに含まれる曜日のリストによって定義されます。この形式では、Mon-Wedなどの繰り返しの週ごとのパターンを効率的に定義できますが、祝日などでパターンが中断されると面倒になります。
上記の簡単な例は次のようになります。
+------------+------------+------------+----------+----------------------+
| ContractID | StartDT | EndDT | DayCount | WeekDays |
+------------+------------+------------+----------+----------------------+
| 1 | 2016-05-02 | 2016-05-13 | 10 | Mon,Tue,Wed,Thu,Fri, |
+------------+------------+------------+----------+----------------------+
同じ契約に属する[StartDT;EndDT]
間隔は重複してはなりません。
最初のシステムのデータを2番目のシステムで使用される形式に変換する必要があります。現時点では、特定の単一コントラクトについてクライアント側でこれをC#で解決していますが、サーバー間のバルク処理とエクスポート/インポートのためにサーバー側のT-SQLで実行したいと考えています。ほとんどの場合、CLR UDFを使用して実行できますが、この段階ではSQLCLRを使用できません。
ここでの課題は、間隔のリストをできるだけ短く、人にわかりやすいものにすることです。
たとえば、このスケジュールは次のとおりです。
+-----+------------+------------+---------+--------+
| ID | ContractID | dt | dowChar | dowInt |
+-----+------------+------------+---------+--------+
| 223 | 2 | 2016-05-05 | Thu | 5 |
| 224 | 2 | 2016-05-06 | Fri | 6 |
| 225 | 2 | 2016-05-09 | Mon | 2 |
| 226 | 2 | 2016-05-10 | Tue | 3 |
| 227 | 2 | 2016-05-11 | Wed | 4 |
| 228 | 2 | 2016-05-12 | Thu | 5 |
| 229 | 2 | 2016-05-13 | Fri | 6 |
| 230 | 2 | 2016-05-16 | Mon | 2 |
| 231 | 2 | 2016-05-17 | Tue | 3 |
+-----+------------+------------+---------+--------+
これになるはずです:
+------------+------------+------------+----------+----------------------+
| ContractID | StartDT | EndDT | DayCount | WeekDays |
+------------+------------+------------+----------+----------------------+
| 2 | 2016-05-05 | 2016-05-17 | 9 | Mon,Tue,Wed,Thu,Fri, |
+------------+------------+------------+----------+----------------------+
、これではない:
+------------+------------+------------+----------+----------------------+
| ContractID | StartDT | EndDT | DayCount | WeekDays |
+------------+------------+------------+----------+----------------------+
| 2 | 2016-05-05 | 2016-05-06 | 2 | Thu,Fri, |
| 2 | 2016-05-09 | 2016-05-13 | 5 | Mon,Tue,Wed,Thu,Fri, |
| 2 | 2016-05-16 | 2016-05-17 | 2 | Mon,Tue, |
+------------+------------+------------+----------+----------------------+
この問題にgaps-and-islands
アプローチを適用しようとしました。私は2つのパスでそれをやろうとしました。最初のパスでは、単純な連続した日の島を見つけます。つまり、島の終わりは、週末、祝日、その他の日数のシーケンスのギャップです。見つかった島ごとに、個別のWeekDays
のコンマ区切りのリストを作成します。 2番目のパスでは、週番号のシーケンスのギャップまたはWeekDays
の変化を調べることで、さらに島を見つけました。
このアプローチでは、週の番号が連続していてもWeekDays
が変化するため、上記のように、部分的な各週は余分な間隔になります。さらに、1週間以内に定期的にギャップが生じる可能性があり(ContractID=3
のデータのみを含むサンプルデータのMon,Wed,Fri,
を参照)、このアプローチでは、そのようなスケジュールで毎日別々の間隔が生成されます。明るい面では、スケジュールにまったくギャップがない場合は1つの間隔が生成されます(週末を含むサンプルデータのContractID=7
を参照)。その場合、開始週と終了週のどちらでもかまいません。部分的です。
以下のスクリプトの他の例を参照して、私が求めていることをよりよく理解してください。週末が除外されることがよくありますが、他の曜日も除外される可能性があります。例3では、Mon
、Wed
およびFri
のみがスケジュールの一部です。さらに、例7のように週末を含めることもできます。このソリューションでは、すべての曜日を同等に扱う必要があります。曜日は、スケジュールに含めたり、除外したりできます。
生成された間隔のリストが指定されたスケジュールを正しく記述していることを確認するには、次の疑似コードを使用できます。
WeekDays
にリストされているかどうかを確認します。はいの場合、この日付はスケジュールに含まれます。うまくいけば、これにより、どのような場合に新しい間隔を作成する必要があるかが明確になります。例4と5では、1つの月曜日(2016-05-09
)がスケジュールの途中から削除され、そのようなスケジュールは単一の間隔では表すことができません。例6では、スケジュールに長いギャップがあるため、2つの間隔が必要です。
間隔は、スケジュールの毎週のパターンを表し、パターンが中断または変更された場合、新しい間隔を追加する必要があります。例11では、最初の3週間にTue
というパターンがあり、次にこのパターンはThu
に変わります。その結果、そのようなスケジュールを記述するために2つの間隔が必要になります。
現在SQL Server 2008を使用しているので、このバージョンでソリューションが機能するはずです。それ以降のバージョンの機能を使用してSQL Server 2008のソリューションを簡略化/改善できる場合は、それもおまけです。それも示してください。
私はCalendar
テーブル(日付のリスト)とNumbers
テーブル(1から始まる整数のリスト)を持っているので、必要に応じてそれらを使用しても問題ありません。一時テーブルを作成し、いくつかの段階でデータを処理するいくつかのクエリを作成することもできます。ただし、アルゴリズムのステージ数は固定する必要があります。カーソルと明示的なWHILE
ループは問題です。
サンプルデータと期待される結果のスクリプト
-- @Src is sample data
-- @Dst is expected result
DECLARE @Src TABLE (ID int PRIMARY KEY, ContractID int, dt date, dowChar char(3), dowInt int);
INSERT INTO @Src (ID, ContractID, dt, dowChar, dowInt) VALUES
-- simple two weeks (without weekend)
(110, 1, '2016-05-02', 'Mon', 2),
(111, 1, '2016-05-03', 'Tue', 3),
(112, 1, '2016-05-04', 'Wed', 4),
(113, 1, '2016-05-05', 'Thu', 5),
(114, 1, '2016-05-06', 'Fri', 6),
(115, 1, '2016-05-09', 'Mon', 2),
(116, 1, '2016-05-10', 'Tue', 3),
(117, 1, '2016-05-11', 'Wed', 4),
(118, 1, '2016-05-12', 'Thu', 5),
(119, 1, '2016-05-13', 'Fri', 6),
-- a partial end of the week, the whole week, partial start of the week (without weekends)
(223, 2, '2016-05-05', 'Thu', 5),
(224, 2, '2016-05-06', 'Fri', 6),
(225, 2, '2016-05-09', 'Mon', 2),
(226, 2, '2016-05-10', 'Tue', 3),
(227, 2, '2016-05-11', 'Wed', 4),
(228, 2, '2016-05-12', 'Thu', 5),
(229, 2, '2016-05-13', 'Fri', 6),
(230, 2, '2016-05-16', 'Mon', 2),
(231, 2, '2016-05-17', 'Tue', 3),
-- only Mon, Wed, Fri are included across two weeks plus partial third week
(310, 3, '2016-05-02', 'Mon', 2),
(311, 3, '2016-05-04', 'Wed', 4),
(314, 3, '2016-05-06', 'Fri', 6),
(315, 3, '2016-05-09', 'Mon', 2),
(317, 3, '2016-05-11', 'Wed', 4),
(319, 3, '2016-05-13', 'Fri', 6),
(330, 3, '2016-05-16', 'Mon', 2),
-- a whole week (without weekend), in the second week Mon is not included
(410, 4, '2016-05-02', 'Mon', 2),
(411, 4, '2016-05-03', 'Tue', 3),
(412, 4, '2016-05-04', 'Wed', 4),
(413, 4, '2016-05-05', 'Thu', 5),
(414, 4, '2016-05-06', 'Fri', 6),
(416, 4, '2016-05-10', 'Tue', 3),
(417, 4, '2016-05-11', 'Wed', 4),
(418, 4, '2016-05-12', 'Thu', 5),
(419, 4, '2016-05-13', 'Fri', 6),
-- three weeks, but without Mon in the second week (no weekends)
(510, 5, '2016-05-02', 'Mon', 2),
(511, 5, '2016-05-03', 'Tue', 3),
(512, 5, '2016-05-04', 'Wed', 4),
(513, 5, '2016-05-05', 'Thu', 5),
(514, 5, '2016-05-06', 'Fri', 6),
(516, 5, '2016-05-10', 'Tue', 3),
(517, 5, '2016-05-11', 'Wed', 4),
(518, 5, '2016-05-12', 'Thu', 5),
(519, 5, '2016-05-13', 'Fri', 6),
(520, 5, '2016-05-16', 'Mon', 2),
(521, 5, '2016-05-17', 'Tue', 3),
(522, 5, '2016-05-18', 'Wed', 4),
(523, 5, '2016-05-19', 'Thu', 5),
(524, 5, '2016-05-20', 'Fri', 6),
-- long gap between two intervals
(623, 6, '2016-05-05', 'Thu', 5),
(624, 6, '2016-05-06', 'Fri', 6),
(625, 6, '2016-05-09', 'Mon', 2),
(626, 6, '2016-05-10', 'Tue', 3),
(627, 6, '2016-05-11', 'Wed', 4),
(628, 6, '2016-05-12', 'Thu', 5),
(629, 6, '2016-05-13', 'Fri', 6),
(630, 6, '2016-05-16', 'Mon', 2),
(631, 6, '2016-05-17', 'Tue', 3),
(645, 6, '2016-06-06', 'Mon', 2),
(646, 6, '2016-06-07', 'Tue', 3),
(647, 6, '2016-06-08', 'Wed', 4),
(648, 6, '2016-06-09', 'Thu', 5),
(649, 6, '2016-06-10', 'Fri', 6),
(655, 6, '2016-06-13', 'Mon', 2),
(656, 6, '2016-06-14', 'Tue', 3),
(657, 6, '2016-06-15', 'Wed', 4),
(658, 6, '2016-06-16', 'Thu', 5),
(659, 6, '2016-06-17', 'Fri', 6),
-- two weeks, no gaps between days at all, even weekends are included
(710, 7, '2016-05-02', 'Mon', 2),
(711, 7, '2016-05-03', 'Tue', 3),
(712, 7, '2016-05-04', 'Wed', 4),
(713, 7, '2016-05-05', 'Thu', 5),
(714, 7, '2016-05-06', 'Fri', 6),
(715, 7, '2016-05-07', 'Sat', 7),
(716, 7, '2016-05-08', 'Sun', 1),
(725, 7, '2016-05-09', 'Mon', 2),
(726, 7, '2016-05-10', 'Tue', 3),
(727, 7, '2016-05-11', 'Wed', 4),
(728, 7, '2016-05-12', 'Thu', 5),
(729, 7, '2016-05-13', 'Fri', 6),
-- no gaps between days at all, even weekends are included, with partial weeks
(805, 8, '2016-04-30', 'Sat', 7),
(806, 8, '2016-05-01', 'Sun', 1),
(810, 8, '2016-05-02', 'Mon', 2),
(811, 8, '2016-05-03', 'Tue', 3),
(812, 8, '2016-05-04', 'Wed', 4),
(813, 8, '2016-05-05', 'Thu', 5),
(814, 8, '2016-05-06', 'Fri', 6),
(815, 8, '2016-05-07', 'Sat', 7),
(816, 8, '2016-05-08', 'Sun', 1),
(825, 8, '2016-05-09', 'Mon', 2),
(826, 8, '2016-05-10', 'Tue', 3),
(827, 8, '2016-05-11', 'Wed', 4),
(828, 8, '2016-05-12', 'Thu', 5),
(829, 8, '2016-05-13', 'Fri', 6),
(830, 8, '2016-05-14', 'Sat', 7),
-- only Mon-Wed included, two weeks plus partial third week
(910, 9, '2016-05-02', 'Mon', 2),
(911, 9, '2016-05-03', 'Tue', 3),
(912, 9, '2016-05-04', 'Wed', 4),
(915, 9, '2016-05-09', 'Mon', 2),
(916, 9, '2016-05-10', 'Tue', 3),
(917, 9, '2016-05-11', 'Wed', 4),
(930, 9, '2016-05-16', 'Mon', 2),
(931, 9, '2016-05-17', 'Tue', 3),
-- only Thu-Sun included, three weeks
(1013,10,'2016-05-05', 'Thu', 5),
(1014,10,'2016-05-06', 'Fri', 6),
(1015,10,'2016-05-07', 'Sat', 7),
(1016,10,'2016-05-08', 'Sun', 1),
(1018,10,'2016-05-12', 'Thu', 5),
(1019,10,'2016-05-13', 'Fri', 6),
(1020,10,'2016-05-14', 'Sat', 7),
(1021,10,'2016-05-15', 'Sun', 1),
(1023,10,'2016-05-19', 'Thu', 5),
(1024,10,'2016-05-20', 'Fri', 6),
(1025,10,'2016-05-21', 'Sat', 7),
(1026,10,'2016-05-22', 'Sun', 1),
-- only Tue for first three weeks, then only Thu for the next three weeks
(1111,11,'2016-05-03', 'Tue', 3),
(1116,11,'2016-05-10', 'Tue', 3),
(1131,11,'2016-05-17', 'Tue', 3),
(1123,11,'2016-05-19', 'Thu', 5),
(1124,11,'2016-05-26', 'Thu', 5),
(1125,11,'2016-06-02', 'Thu', 5),
-- one week, then one week gap, then one week
(1210,12,'2016-05-02', 'Mon', 2),
(1211,12,'2016-05-03', 'Tue', 3),
(1212,12,'2016-05-04', 'Wed', 4),
(1213,12,'2016-05-05', 'Thu', 5),
(1214,12,'2016-05-06', 'Fri', 6),
(1215,12,'2016-05-16', 'Mon', 2),
(1216,12,'2016-05-17', 'Tue', 3),
(1217,12,'2016-05-18', 'Wed', 4),
(1218,12,'2016-05-19', 'Thu', 5),
(1219,12,'2016-05-20', 'Fri', 6);
SELECT ID, ContractID, dt, dowChar, dowInt
FROM @Src
ORDER BY ContractID, dt;
DECLARE @Dst TABLE (ContractID int, StartDT date, EndDT date, DayCount int, WeekDays varchar(255));
INSERT INTO @Dst (ContractID, StartDT, EndDT, DayCount, WeekDays) VALUES
(1, '2016-05-02', '2016-05-13', 10, 'Mon,Tue,Wed,Thu,Fri,'),
(2, '2016-05-05', '2016-05-17', 9, 'Mon,Tue,Wed,Thu,Fri,'),
(3, '2016-05-02', '2016-05-16', 7, 'Mon,Wed,Fri,'),
(4, '2016-05-02', '2016-05-06', 5, 'Mon,Tue,Wed,Thu,Fri,'),
(4, '2016-05-10', '2016-05-13', 4, 'Tue,Wed,Thu,Fri,'),
(5, '2016-05-02', '2016-05-06', 5, 'Mon,Tue,Wed,Thu,Fri,'),
(5, '2016-05-10', '2016-05-20', 9, 'Mon,Tue,Wed,Thu,Fri,'),
(6, '2016-05-05', '2016-05-17', 9, 'Mon,Tue,Wed,Thu,Fri,'),
(6, '2016-06-06', '2016-06-17', 10, 'Mon,Tue,Wed,Thu,Fri,'),
(7, '2016-05-02', '2016-05-13', 12, 'Sun,Mon,Tue,Wed,Thu,Fri,Sat,'),
(8, '2016-04-30', '2016-05-14', 15, 'Sun,Mon,Tue,Wed,Thu,Fri,Sat,'),
(9, '2016-05-02', '2016-05-17', 8, 'Mon,Tue,Wed,'),
(10,'2016-05-05', '2016-05-22', 12, 'Sun,Thu,Fri,Sat,'),
(11,'2016-05-03', '2016-05-17', 3, 'Tue,'),
(11,'2016-05-19', '2016-06-02', 3, 'Thu,'),
(12,'2016-05-02', '2016-05-06', 5, 'Mon,Tue,Wed,Thu,Fri,'),
(12,'2016-05-16', '2016-05-20', 5, 'Mon,Tue,Wed,Thu,Fri,');
SELECT ContractID, StartDT, EndDT, DayCount, WeekDays
FROM @Dst
ORDER BY ContractID, StartDT;
実際のテーブル@Src
には403,555
行があり、15,857
個別のContractIDs
が含まれています。すべての答えは正しい結果を生成し(少なくとも私のデータに対して)、それらはすべてかなり高速ですが、最適性は異なります。生成される間隔が少ないほど良いです。好奇心のためにランタイムを含めました。主な焦点は、速度ではなく正確で最適な結果です(時間がかかりすぎる場合を除きます-10分後にZiggy Crueltyfree Zeitgeisterによる非再帰クエリを停止しました)。
+--------------------------------------------------------+-----------+---------+
| Answer | Intervals | Seconds |
+--------------------------------------------------------+-----------+---------+
| Ziggy Crueltyfree Zeitgeister | 25751 | 7.88 |
| While loop | | |
| | | |
| Ziggy Crueltyfree Zeitgeister | 25751 | 8.27 |
| Recursive | | |
| | | |
| Michael Green | 25751 | 22.63 |
| Recursive | | |
| | | |
| Geoff Patterson | 26670 | 4.79 |
| Weekly gaps-and-islands with merging of partial weeks | | |
| | | |
| Vladimir Baranov | 34560 | 4.03 |
| Daily, then weekly gaps-and-islands | | |
| | | |
| Mikael Eriksson | 35840 | 0.65 |
| Weekly gaps-and-islands | | |
+--------------------------------------------------------+-----------+---------+
| Vladimir Baranov | 25751 | 121.51 |
| Cursor | | |
+--------------------------------------------------------+-----------+---------+
これは再帰的なCTEを使用します。 その結果は質問の例と同じです。思いつくのは悪夢でした...コードには、その複雑なロジックを容易にするコメントが含まれています。
_SET DATEFIRST 1 -- Make Monday weekday=1
DECLARE @Ranked TABLE (RowID int NOT NULL IDENTITY PRIMARY KEY, -- Incremental uninterrupted sequence in the right order
ID int NOT NULL UNIQUE, ContractID int NOT NULL, dt date, -- Original relevant values (ID is not really necessary)
WeekNo int NOT NULL, dowBit int NOT NULL); -- Useful to find gaps in days or weeks
INSERT INTO @Ranked
SELECT ID, ContractID, dt,
DATEDIFF(WEEK, '1900-01-01', DATEADD(DAY, 1-DATEPART(dw, dt), dt)) AS WeekNo,
POWER(2, DATEPART(dw, dt)-1) AS dowBit
FROM @Src
ORDER BY ContractID, WeekNo, dowBit
/*
Each evaluated date makes part of the carried sequence if:
- this is not a new contract, and
- sequence started this week, or
- same day last week was part of the sequence, or
- sequence started last week and today is a lower day than the accumulated weekdays list
- and there are no sequence gaps since previous day
(otherwise it does not make part of the old sequence, so it starts a new one) */
DECLARE @RankedRanges TABLE (RowID int NOT NULL PRIMARY KEY, WeekDays int NOT NULL, StartRowID int NULL);
WITH WeeksCTE AS -- Needed for building the sequence gradually, and comparing the carried sequence (and previous day) with a current evaluated day
(
SELECT RowID, ContractID, dowBit, WeekNo, RowID AS StartRowID, WeekNo AS StartWN, dowBit AS WeekDays, dowBit AS StartWeekDays
FROM @Ranked
WHERE RowID = 1
UNION ALL
SELECT RowID, ContractID, dowBit, WeekNo, StartRowID,
CASE WHEN StartRowID IS NULL THEN StartWN ELSE WeekNo END AS WeekNo,
CASE WHEN StartRowID IS NULL THEN WeekDays | dowBit ELSE dowBit END AS WeekDays,
CASE WHEN StartRowID IS NOT NULL THEN dowBit WHEN WeekNo = StartWN THEN StartWeekDays | dowBit ELSE StartWeekDays END AS StartWeekDays
FROM (
SELECT w.*, pre.StartWN, pre.WeekDays, pre.StartWeekDays,
CASE WHEN w.ContractID <> pre.ContractID OR -- New contract always break the sequence
NOT (w.WeekNo = pre.StartWN OR -- Same week as a new sequence always keeps the sequence
w.dowBit & pre.WeekDays > 0 OR -- Days in the sequence keep the sequence (provided there are no gaps, checked later)
(w.WeekNo = pre.StartWN+1 AND (w.dowBit-1) & pre.StartWeekDays = 0)) OR -- Days in the second week when less than a week passed since the sequence started remain in sequence
(w.WeekNo > pre.StartWN AND -- look for gap after initial week
w.WeekNo > pre.WeekNo+1 OR -- look for full-week gaps
(w.WeekNo = pre.WeekNo AND -- when same week as previous day,
((w.dowBit-1) ^ (pre.dowBit*2-1)) & pre.WeekDays > 0 -- days between this and previous weekdays, compared to current series
) OR
(w.WeekNo > pre.WeekNo AND -- when following week of previous day,
((-1 ^ (pre.dowBit*2-1)) | (w.dowBit-1)) & pre.WeekDays > 0 -- days between this and previous weekdays, compared to current series
)) THEN w.RowID END AS StartRowID
FROM WeeksCTE pre
JOIN @Ranked w ON (w.RowID = pre.RowID + 1)
) w
)
INSERT INTO @RankedRanges -- days sequence and starting point of each sequence
SELECT RowID, WeekDays, StartRowID
--SELECT *
FROM WeeksCTE
OPTION (MAXRECURSION 0)
--SELECT * FROM @RankedRanges
DECLARE @Ranges TABLE (RowNo int NOT NULL IDENTITY PRIMARY KEY, RowID int NOT NULL);
INSERT INTO @Ranges -- @RankedRanges filtered only by start of each range, with numbered rows to easily find the end of each range
SELECT StartRowID
FROM @RankedRanges
WHERE StartRowID IS NOT NULL
ORDER BY 1
-- Final result putting everything together
SELECT rs.ContractID, rs.dt AS StartDT, re.dt AS EndDT, re.RowID-rs.RowID+1 AS DayCount,
CASE WHEN rr.WeekDays & 64 > 0 THEN 'Sun,' ELSE '' END +
CASE WHEN rr.WeekDays & 1 > 0 THEN 'Mon,' ELSE '' END +
CASE WHEN rr.WeekDays & 2 > 0 THEN 'Tue,' ELSE '' END +
CASE WHEN rr.WeekDays & 4 > 0 THEN 'Wed,' ELSE '' END +
CASE WHEN rr.WeekDays & 8 > 0 THEN 'Thu,' ELSE '' END +
CASE WHEN rr.WeekDays & 16 > 0 THEN 'Fri,' ELSE '' END +
CASE WHEN rr.WeekDays & 32 > 0 THEN 'Sat,' ELSE '' END AS WeekDays
FROM (
SELECT r.RowID AS StartRowID, COALESCE(pos.RowID-1, (SELECT MAX(RowID) FROM @Ranked)) AS EndRowID
FROM @Ranges r
LEFT JOIN @Ranges pos ON (pos.RowNo = r.RowNo + 1)
) g
JOIN @Ranked rs ON (rs.RowID = g.StartRowID)
JOIN @Ranked re ON (re.RowID = g.EndRowID)
JOIN @RankedRanges rr ON (rr.RowID = re.RowID)
_
これは、SQL Server 2008の遅い限定的な再帰CTEに依存しないため、前のものよりも大幅に高速ですが、ほぼ同じ戦略を実装しています。
WHILE
ループはありますが(それを回避する方法を考案することはできませんでした)、反復回数は少なくなっています(任意のコントラクトでのシーケンスの最大数(マイナス1))。
これは単純な戦略であり、1週間より短い、または長いシーケンスに使用できます(その他の数値の定数7の出現を置き換え、dowBit
のMODULUS xから計算されたDayNo
DATEPART(wk)
)ではなく、32まで。
_SET DATEFIRST 1 -- Make Monday weekday=1
-- Get the minimum information needed to calculate sequences
DECLARE @Days TABLE (ContractID int NOT NULL, dt date, DayNo int NOT NULL, dowBit int NOT NULL, PRIMARY KEY (ContractID, DayNo));
INSERT INTO @Days
SELECT ContractID, dt, CAST(CAST(dt AS datetime) AS int) AS DayNo, POWER(2, DATEPART(dw, dt)-1) AS dowBit
FROM @Src
DECLARE @RangeStartFirstPass TABLE (ContractID int NOT NULL, DayNo int NOT NULL, PRIMARY KEY (ContractID, DayNo))
-- Calculate, from the above list, which days are not present in the previous 7
INSERT INTO @RangeStartFirstPass
SELECT r.ContractID, r.DayNo
FROM @Days r
LEFT JOIN @Days pr ON (pr.ContractID = r.ContractID AND pr.DayNo BETWEEN r.DayNo-7 AND r.DayNo-1) -- Last 7 days
GROUP BY r.ContractID, r.DayNo, r.dowBit
HAVING r.dowBit & COALESCE(SUM(pr.dowBit), 0) = 0
-- Update the previous list with all days that occur right after a missing day
INSERT INTO @RangeStartFirstPass
SELECT *
FROM (
SELECT DISTINCT ContractID, (SELECT MIN(DayNo) FROM @Days WHERE ContractID = d.ContractID AND DayNo > d.DayNo + 7) AS DayNo
FROM @Days d
WHERE NOT EXISTS (SELECT 1 FROM @Days WHERE ContractID = d.ContractID AND DayNo = d.DayNo + 7)
) d
WHERE DayNo IS NOT NULL AND
NOT EXISTS (SELECT 1 FROM @RangeStartFirstPass WHERE ContractID = d.ContractID AND DayNo = d.DayNo)
DECLARE @RangeStart TABLE (ContractID int NOT NULL, DayNo int NOT NULL, PRIMARY KEY (ContractID, DayNo));
-- Fetch the first sequence for each contract
INSERT INTO @RangeStart
SELECT ContractID, MIN(DayNo)
FROM @RangeStartFirstPass
GROUP BY ContractID
-- Add to the list above the next sequence for each contract, until all are added
-- (ensure no sequence is added with less than 7 days)
WHILE @@ROWCOUNT > 0
INSERT INTO @RangeStart
SELECT f.ContractID, MIN(f.DayNo)
FROM (SELECT ContractID, MAX(DayNo) AS DayNo FROM @RangeStart GROUP BY ContractID) s
JOIN @RangeStartFirstPass f ON (f.ContractID = s.ContractID AND f.DayNo > s.DayNo + 7)
GROUP BY f.ContractID
-- Summarise results
SELECT ContractID, StartDT, EndDT, DayCount,
CASE WHEN WeekDays & 64 > 0 THEN 'Sun,' ELSE '' END +
CASE WHEN WeekDays & 1 > 0 THEN 'Mon,' ELSE '' END +
CASE WHEN WeekDays & 2 > 0 THEN 'Tue,' ELSE '' END +
CASE WHEN WeekDays & 4 > 0 THEN 'Wed,' ELSE '' END +
CASE WHEN WeekDays & 8 > 0 THEN 'Thu,' ELSE '' END +
CASE WHEN WeekDays & 16 > 0 THEN 'Fri,' ELSE '' END +
CASE WHEN WeekDays & 32 > 0 THEN 'Sat,' ELSE '' END AS WeekDays
FROM (
SELECT r.ContractID,
MIN(d.dt) AS StartDT,
MAX(d.dt) AS EndDT,
COUNT(*) AS DayCount,
SUM(DISTINCT d.dowBit) AS WeekDays
FROM (SELECT *, COALESCE((SELECT MIN(DayNo) FROM @RangeStart WHERE ContractID = rs.ContractID AND DayNo > rs.DayNo), 999999) AS DayEnd FROM @RangeStart rs) r
JOIN @Days d ON (d.ContractID = r.ContractID AND d.DayNo BETWEEN r.DayNo AND r.DayEnd-1)
GROUP BY r.ContractID, r.DayNo
) d
ORDER BY ContractID, StartDT
_
この場合、最適なソリューションが得られるアプローチになりましたが、一般的にはうまくいくと思います。ただし、解決策は非常に長いため、他の誰かがより簡潔な別のアプローチを持っているかどうかを確認すると興味深いでしょう。
そして、これがアルゴリズムの概要です:
ContractId
内の週の島を計算しますContractId
に属し、同じWeekDays
の隣接する週をマージしますWeekDays
が前のグループのWeekDays
の先頭のサブセットと一致する1週間(まだ結合されていない)の場合は、それに結合します。以前のグループ化WeekDays
が次のグループのWeekDays
の後続のサブセットと一致する1週間(まだマージされていない)の場合、マージします次のグループ化正確にあなたが探しているものではありませんが、おそらくあなたにとって興味があるかもしれません。
クエリは、各週で使用される曜日をコンマ区切りの文字列で週を作成します。次に、Weekdays
で同じパターンを使用する連続した週の島を見つけます。
with Weeks as
(
select T.*,
row_number() over(partition by T.ContractID, T.WeekDays order by T.WeekNumber) as rn
from (
select S1.ContractID,
min(S1.dt) as StartDT,
max(S1.dt) as EndDT,
datediff(day, 0, S1.dt) / 7 as WeekNumber, -- Number of weeks since '1900-01-01 (a monday)'
count(*) as DayCount,
stuff((
select ','+S2.dowChar
from @Src as S2
where S2.ContractID = S1.ContractID and
S2.dt between min(S1.dt) and max(S1.dt)
order by S2.dt
for xml path('')
), 1, 1, '') as WeekDays
from @Src as S1
group by S1.ContractID,
datediff(day, 0, S1.dt) / 7
) as T
)
select W.ContractID,
min(W.StartDT) as StartDT,
max(W.EndDT) as EndDT,
count(*) * W.DayCount as DayCount,
W.WeekDays
from Weeks as W
group by W.ContractID,
W.WeekDays,
W.DayCount,
W.rn - W.WeekNumber
order by W.ContractID,
min(W.WeekNumber);
結果:
ContractID StartDT EndDT DayCount WeekDays
----------- ---------- ---------- ----------- -----------------------------
1 2016-05-02 2016-05-13 10 Mon,Tue,Wed,Thu,Fri
2 2016-05-05 2016-05-06 2 Thu,Fri
2 2016-05-09 2016-05-13 5 Mon,Tue,Wed,Thu,Fri
2 2016-05-16 2016-05-17 2 Mon,Tue
3 2016-05-02 2016-05-13 6 Mon,Wed,Fri
3 2016-05-16 2016-05-16 1 Mon
4 2016-05-02 2016-05-06 5 Mon,Tue,Wed,Thu,Fri
4 2016-05-10 2016-05-13 4 Tue,Wed,Thu,Fri
5 2016-05-02 2016-05-06 5 Mon,Tue,Wed,Thu,Fri
5 2016-05-10 2016-05-13 4 Tue,Wed,Thu,Fri
5 2016-05-16 2016-05-20 5 Mon,Tue,Wed,Thu,Fri
6 2016-05-05 2016-05-06 2 Thu,Fri
6 2016-05-09 2016-05-13 5 Mon,Tue,Wed,Thu,Fri
6 2016-05-16 2016-05-17 2 Mon,Tue
6 2016-06-06 2016-06-17 10 Mon,Tue,Wed,Thu,Fri
7 2016-05-02 2016-05-08 7 Mon,Tue,Wed,Thu,Fri,Sat,Sun
7 2016-05-09 2016-05-13 5 Mon,Tue,Wed,Thu,Fri
8 2016-04-30 2016-05-01 2 Sat,Sun
8 2016-05-02 2016-05-08 7 Mon,Tue,Wed,Thu,Fri,Sat,Sun
8 2016-05-09 2016-05-14 6 Mon,Tue,Wed,Thu,Fri,Sat
9 2016-05-02 2016-05-11 6 Mon,Tue,Wed
9 2016-05-16 2016-05-17 2 Mon,Tue
10 2016-05-05 2016-05-22 12 Thu,Fri,Sat,Sun
11 2016-05-03 2016-05-10 2 Tue
11 2016-05-17 2016-05-19 2 Tue,Thu
11 2016-05-26 2016-06-02 2 Thu
ContractID = 2
は、結果の違いが希望のものと比較されているものを示します。 WeekDays
が異なるため、最初の週と最後の週は別々の期間として扱われます。
ギャップのある週、または週末のある週をグループ化する背後のロジックを理解できませんでした(たとえば、週末が2週間連続している場合、週末はどの週に行きますか?)。
次のクエリは、連続する平日のみをグループ化し、月曜から日曜までではなく日曜から土曜までをグループ化することを除いて、望ましい出力を生成します。まさにあなたが望むものではありませんが、おそらくこれは別の戦略の手がかりを提供する可能性があります。日のグループ化は here から行われます。使用されるウィンドウ関数はSQLServer 2008で動作するはずですが、実際に動作するかどうかをテストするバージョンはありません。
WITH
mysrc AS (
SELECT *, RANK() OVER (PARTITION BY ContractID ORDER BY DT) AS rank
FROM @Src
),
prepos AS (
SELECT s.*, pos.ID AS posid
FROM mysrc s
LEFT JOIN mysrc pos ON (pos.ContractID = s.ContractID AND pos.rank = s.rank+1 AND (pos.DowInt = s.DowInt+1 OR pos.DowInt = 2 AND s.DowInt=6))
),
grped AS (
SELECT TOP 100 *, (SELECT COUNT(CASE WHEN posid IS NULL THEN 1 END) FROM prepos WHERE contractid = p.contractid AND rank < p.rank) as grp
FROM prepos p
ORDER BY ContractID, DT
)
SELECT ContractID, min(dt) AS StartDT, max(dt) AS EndDT, count(*) AS DayCount,
STUFF( (SELECT ', ' + dowchar
FROM (
SELECT TOP 100 dowint, dowchar
FROM grped
WHERE ContractID = g.ContractID AND grp = g.grp
GROUP BY dowint, dowchar
ORDER BY 1
) a
FOR XML PATH(''), TYPE).value('.','varchar(max)'), 1, 2, '') AS WeekDays
FROM grped g
GROUP BY ContractID, grp
ORDER BY 1, 2
結果
+------------+------------+------------+----------+-----------------------------------+
| ContractID | StartDT | EndDT | DayCount | WeekDays |
+------------+------------+------------+----------+-----------------------------------+
| 1 | 2/05/2016 | 13/05/2016 | 10 | Mon, Tue, Wed, Thu, Fri |
| 2 | 5/05/2016 | 17/05/2016 | 9 | Mon, Tue, Wed, Thu, Fri |
| 3 | 2/05/2016 | 2/05/2016 | 1 | Mon |
| 3 | 4/05/2016 | 4/05/2016 | 1 | Wed |
| 3 | 6/05/2016 | 9/05/2016 | 2 | Mon, Fri |
| 3 | 11/05/2016 | 11/05/2016 | 1 | Wed |
| 3 | 13/05/2016 | 16/05/2016 | 2 | Mon, Fri |
| 4 | 2/05/2016 | 6/05/2016 | 5 | Mon, Tue, Wed, Thu, Fri |
| 4 | 10/05/2016 | 13/05/2016 | 4 | Tue, Wed, Thu, Fri |
| 5 | 2/05/2016 | 6/05/2016 | 5 | Mon, Tue, Wed, Thu, Fri |
| 5 | 10/05/2016 | 20/05/2016 | 9 | Mon, Tue, Wed, Thu, Fri |
| 6 | 5/05/2016 | 17/05/2016 | 9 | Mon, Tue, Wed, Thu, Fri |
| 6 | 6/06/2016 | 17/06/2016 | 10 | Mon, Tue, Wed, Thu, Fri |
| 7 | 2/05/2016 | 7/05/2016 | 6 | Mon, Tue, Wed, Thu, Fri, Sat |
| 7 | 8/05/2016 | 13/05/2016 | 6 | Sun, Mon, Tue, Wed, Thu, Fri |
| 8 | 30/04/2016 | 30/04/2016 | 1 | Sat |
| 8 | 1/05/2016 | 7/05/2016 | 7 | Sun, Mon, Tue, Wed, Thu, Fri, Sat |
| 8 | 8/05/2016 | 14/05/2016 | 7 | Sun, Mon, Tue, Wed, Thu, Fri, Sat |
| 9 | 2/05/2016 | 4/05/2016 | 3 | Mon, Tue, Wed |
| 9 | 9/05/2016 | 10/05/2016 | 2 | Mon, Tue |
+------------+------------+------------+----------+-----------------------------------+
完全を期すために、2パスgaps-and-islands
この質問をする前に自分で試したアプローチ。
実際のデータでテストしていると、間違った結果を生成して修正するケースがほとんどありませんでした。
これがアルゴリズムです:
CTE_ContractDays
、CTE_DailyRN
、CTE_DailyIslands
)、島の開始日と終了日ごとに週番号を計算します。ここで、週番号は、月曜日が週の最初の日であると想定して計算されます。CTE_Weeks
)。CTE_FirstResult
)。WeekDays
(CTE_SecondRN
、CTE_Schedules
)。毎週のパターンに乱れがない場合(1、7、8、10、12)に適切なケースを処理します。パターンに非連続日がある場合に適切なケースを処理します(3)。
しかし、残念ながら、それは部分的な週(2、3、5、6、9、11)の余分な間隔を生成します。
WITH
CTE_ContractDays
AS
(
SELECT
S.ContractID
,MIN(S.dt) OVER (PARTITION BY S.ContractID) AS ContractMinDT
,S.dt
,ROW_NUMBER() OVER (PARTITION BY S.ContractID ORDER BY S.dt) AS rn1
,DATEDIFF(day, '2001-01-01', S.dt) AS DayNumber
,S.dowChar
,S.dowInt
FROM
@Src AS S
)
,CTE_DailyRN
AS
(
SELECT
DayNumber - rn1 AS WeekGroupNumber
,ROW_NUMBER() OVER (
PARTITION BY
ContractID
,DayNumber - rn1
ORDER BY dt) AS rn2
,ContractID
,ContractMinDT
,dt
,rn1
,DayNumber
,dowChar
,dowInt
FROM CTE_ContractDays
)
,CTE_DailyIslands
AS
(
SELECT
ContractID
,ContractMinDT
,MIN(dt) AS MinDT
,MAX(dt) AS MaxDT
,COUNT(*) AS DayCount
-- '2001-01-01' is Monday
,DATEDIFF(day, '2001-01-01', MIN(dt)) / 7 AS WeekNumberMin
,DATEDIFF(day, '2001-01-01', MAX(dt)) / 7 AS WeekNumberMax
FROM CTE_DailyRN
GROUP BY
ContractID
,rn1-rn2
,ContractMinDT
)
,CTE_Weeks
AS
(
SELECT
ContractID
,ContractMinDT
,MIN(MinDT) AS MinDT
,MAX(MaxDT) AS MaxDT
,SUM(DayCount) AS DayCount
,WeekNumberMin
,WeekNumberMax
FROM CTE_DailyIslands
GROUP BY
ContractID
,ContractMinDT
,WeekNumberMin
,WeekNumberMax
)
,CTE_FirstResult
AS
(
SELECT
ContractID
,ContractMinDT
,MinDT
,MaxDT
,DayCount
,CA_Data.XML_Value AS DaysOfWeek
,WeekNumberMin AS WeekNumber
,ROW_NUMBER() OVER(PARTITION BY ContractID ORDER BY MinDT) AS rn1
FROM
CTE_Weeks
CROSS APPLY
(
SELECT CAST(CTE_ContractDays.dowChar AS varchar(8000)) + ',' AS dw
FROM CTE_ContractDays
WHERE
CTE_ContractDays.ContractID = CTE_Weeks.ContractID
AND CTE_ContractDays.dt >= CTE_Weeks.MinDT
AND CTE_ContractDays.dt <= CTE_Weeks.MaxDT
GROUP BY
CTE_ContractDays.dowChar
,CTE_ContractDays.dowInt
ORDER BY CTE_ContractDays.dowInt
FOR XML PATH(''), TYPE
) AS CA_XML(XML_Value)
CROSS APPLY
(
SELECT CA_XML.XML_Value.value('.', 'VARCHAR(8000)')
) AS CA_Data(XML_Value)
)
,CTE_SecondRN
AS
(
SELECT
ContractID
,ContractMinDT
,MinDT
,MaxDT
,DayCount
,DaysOfWeek
,WeekNumber
,rn1
,WeekNumber - rn1 AS SecondGroupNumber
,ROW_NUMBER() OVER (
PARTITION BY
ContractID
,DaysOfWeek
,DayCount
,WeekNumber - rn1
ORDER BY MinDT) AS rn2
FROM CTE_FirstResult
)
,CTE_Schedules
AS
(
SELECT
ContractID
,MIN(MinDT) AS StartDT
,MAX(MaxDT) AS EndDT
,SUM(DayCount) AS DayCount
,DaysOfWeek
FROM CTE_SecondRN
GROUP BY
ContractID
,DaysOfWeek
,rn1-rn2
)
SELECT
ContractID
,StartDT
,EndDT
,DayCount
,DaysOfWeek AS WeekDays
FROM CTE_Schedules
ORDER BY
ContractID
,StartDT
;
結果
+------------+------------+------------+----------+------------------------------+
| ContractID | StartDT | EndDT | DayCount | WeekDays |
+------------+------------+------------+----------+------------------------------+
| 1 | 2016-05-02 | 2016-05-13 | 10 | Mon,Tue,Wed,Thu,Fri, |
| 2 | 2016-05-05 | 2016-05-06 | 2 | Thu,Fri, |
| 2 | 2016-05-09 | 2016-05-13 | 5 | Mon,Tue,Wed,Thu,Fri, |
| 2 | 2016-05-16 | 2016-05-17 | 2 | Mon,Tue, |
| 3 | 2016-05-02 | 2016-05-13 | 6 | Mon,Wed,Fri, |
| 3 | 2016-05-16 | 2016-05-16 | 1 | Mon, |
| 4 | 2016-05-02 | 2016-05-06 | 5 | Mon,Tue,Wed,Thu,Fri, |
| 4 | 2016-05-10 | 2016-05-13 | 4 | Tue,Wed,Thu,Fri, |
| 5 | 2016-05-02 | 2016-05-06 | 5 | Mon,Tue,Wed,Thu,Fri, |
| 5 | 2016-05-10 | 2016-05-13 | 4 | Tue,Wed,Thu,Fri, |
| 5 | 2016-05-16 | 2016-05-20 | 5 | Mon,Tue,Wed,Thu,Fri, |
| 6 | 2016-05-05 | 2016-05-06 | 2 | Thu,Fri, |
| 6 | 2016-05-09 | 2016-05-13 | 5 | Mon,Tue,Wed,Thu,Fri, |
| 6 | 2016-05-16 | 2016-05-17 | 2 | Mon,Tue, |
| 6 | 2016-06-06 | 2016-06-17 | 10 | Mon,Tue,Wed,Thu,Fri, |
| 7 | 2016-05-02 | 2016-05-13 | 12 | Sun,Mon,Tue,Wed,Thu,Fri,Sat, |
| 8 | 2016-04-30 | 2016-05-14 | 15 | Sun,Mon,Tue,Wed,Thu,Fri,Sat, |
| 9 | 2016-05-02 | 2016-05-11 | 6 | Mon,Tue,Wed, |
| 9 | 2016-05-16 | 2016-05-17 | 2 | Mon,Tue, |
| 10 | 2016-05-05 | 2016-05-22 | 12 | Sun,Thu,Fri,Sat, |
| 11 | 2016-05-03 | 2016-05-10 | 2 | Tue, |
| 11 | 2016-05-17 | 2016-05-19 | 2 | Tue,Thu, |
| 11 | 2016-05-26 | 2016-06-02 | 2 | Thu, |
| 12 | 2016-05-02 | 2016-05-06 | 5 | Mon,Tue,Wed,Thu,Fri, |
| 12 | 2016-05-16 | 2016-05-20 | 5 | Mon,Tue,Wed,Thu,Fri, |
+------------+------------+------------+----------+------------------------------+
カーソルベースのソリューション
C#コードをカーソルベースのアルゴリズムに変換しました。実際のデータで他のソリューションと比較する方法を確認するためだけです。他のセットベースまたは再帰的なアプローチよりもはるかに遅いことを確認しますが、最適な結果を生成します。
CREATE TABLE #Dst_V2 (ContractID bigint, StartDT date, EndDT date, DayCount int, WeekDays varchar(255) COLLATE SQL_Latin1_General_CP1_CI_AS);
SET NOCOUNT ON;
DECLARE @VarOldDateFirst int = @@DATEFIRST;
SET DATEFIRST 7;
DECLARE @iFS int;
DECLARE @VarCursor CURSOR;
SET @VarCursor = CURSOR FAST_FORWARD
FOR
SELECT
ContractID
,dt
,dowChar
,dowInt
FROM #Src AS S
;
OPEN @VarCursor;
DECLARE @CurrContractID bigint = 0;
DECLARE @Currdt date;
DECLARE @CurrdowChar char(3);
DECLARE @CurrdowInt int;
DECLARE @VarCreateNewInterval bit = 0;
DECLARE @VarTempDT date;
DECLARE @VarTempdowInt int;
DECLARE @LastContractID bigint = 0;
DECLARE @LastStartDT date;
DECLARE @LastEndDT date;
DECLARE @LastDayCount int = 0;
DECLARE @LastWeekDays varchar(255);
DECLARE @LastMonCount int;
DECLARE @LastTueCount int;
DECLARE @LastWedCount int;
DECLARE @LastThuCount int;
DECLARE @LastFriCount int;
DECLARE @LastSatCount int;
DECLARE @LastSunCount int;
FETCH NEXT FROM @VarCursor INTO @CurrContractID, @Currdt, @CurrdowChar, @CurrdowInt;
SET @iFS = @@FETCH_STATUS;
IF @iFS = 0
BEGIN
SET @LastContractID = @CurrContractID;
SET @LastStartDT = @Currdt;
SET @LastEndDT = @Currdt;
SET @LastDayCount = 1;
SET @LastMonCount = 0;
SET @LastTueCount = 0;
SET @LastWedCount = 0;
SET @LastThuCount = 0;
SET @LastFriCount = 0;
SET @LastSatCount = 0;
SET @LastSunCount = 0;
IF @CurrdowInt = 1 SET @LastSunCount = @LastSunCount + 1;
IF @CurrdowInt = 2 SET @LastMonCount = @LastMonCount + 1;
IF @CurrdowInt = 3 SET @LastTueCount = @LastTueCount + 1;
IF @CurrdowInt = 4 SET @LastWedCount = @LastWedCount + 1;
IF @CurrdowInt = 5 SET @LastThuCount = @LastThuCount + 1;
IF @CurrdowInt = 6 SET @LastFriCount = @LastFriCount + 1;
IF @CurrdowInt = 7 SET @LastSatCount = @LastSatCount + 1;
END;
WHILE @iFS = 0
BEGIN
SET @VarCreateNewInterval = 0;
-- Contract changes -> start new interval
IF @LastContractID <> @CurrContractID
BEGIN
SET @VarCreateNewInterval = 1;
END;
IF @VarCreateNewInterval = 0
BEGIN
-- check days of week
-- are we still within the first week of the interval?
IF DATEDIFF(day, @LastStartDT, @Currdt) > 6
BEGIN
-- we are beyond the first week, check day of the week
-- have we seen @CurrdowInt before?
-- we should start a new interval if this is the new day of the week that didn't exist in the first week
IF @CurrdowInt = 1 AND @LastSunCount = 0 SET @VarCreateNewInterval = 1;
IF @CurrdowInt = 2 AND @LastMonCount = 0 SET @VarCreateNewInterval = 1;
IF @CurrdowInt = 3 AND @LastTueCount = 0 SET @VarCreateNewInterval = 1;
IF @CurrdowInt = 4 AND @LastWedCount = 0 SET @VarCreateNewInterval = 1;
IF @CurrdowInt = 5 AND @LastThuCount = 0 SET @VarCreateNewInterval = 1;
IF @CurrdowInt = 6 AND @LastFriCount = 0 SET @VarCreateNewInterval = 1;
IF @CurrdowInt = 7 AND @LastSatCount = 0 SET @VarCreateNewInterval = 1;
IF @VarCreateNewInterval = 0
BEGIN
-- check the gap between current day and last day of the interval
-- if the gap between current day and last day of the interval
-- contains a day of the week that was included in the interval before,
-- we should create new interval
SET @VarTempDT = DATEADD(day, 1, @LastEndDT);
WHILE @VarTempDT < @Currdt
BEGIN
SET @VarTempdowInt = DATEPART(WEEKDAY, @VarTempDT);
IF @VarTempdowInt = 1 AND @LastSunCount > 0 BEGIN SET @VarCreateNewInterval = 1; BREAK; END;
IF @VarTempdowInt = 2 AND @LastMonCount > 0 BEGIN SET @VarCreateNewInterval = 1; BREAK; END;
IF @VarTempdowInt = 3 AND @LastTueCount > 0 BEGIN SET @VarCreateNewInterval = 1; BREAK; END;
IF @VarTempdowInt = 4 AND @LastWedCount > 0 BEGIN SET @VarCreateNewInterval = 1; BREAK; END;
IF @VarTempdowInt = 5 AND @LastThuCount > 0 BEGIN SET @VarCreateNewInterval = 1; BREAK; END;
IF @VarTempdowInt = 6 AND @LastFriCount > 0 BEGIN SET @VarCreateNewInterval = 1; BREAK; END;
IF @VarTempdowInt = 7 AND @LastSatCount > 0 BEGIN SET @VarCreateNewInterval = 1; BREAK; END;
SET @VarTempDT = DATEADD(day, 1, @VarTempDT);
END;
END;
END;
-- else
-- we are still within the first week, so we can add this day to the interval
END;
IF @VarCreateNewInterval = 1
BEGIN
-- save the new interval into the final table
SET @LastWeekDays = '';
IF @LastSunCount > 0 SET @LastWeekDays = @LastWeekDays + 'Sun,';
IF @LastMonCount > 0 SET @LastWeekDays = @LastWeekDays + 'Mon,';
IF @LastTueCount > 0 SET @LastWeekDays = @LastWeekDays + 'Tue,';
IF @LastWedCount > 0 SET @LastWeekDays = @LastWeekDays + 'Wed,';
IF @LastThuCount > 0 SET @LastWeekDays = @LastWeekDays + 'Thu,';
IF @LastFriCount > 0 SET @LastWeekDays = @LastWeekDays + 'Fri,';
IF @LastSatCount > 0 SET @LastWeekDays = @LastWeekDays + 'Sat,';
INSERT INTO #Dst_V2
(ContractID
,StartDT
,EndDT
,DayCount
,WeekDays)
VALUES
(@LastContractID
,@LastStartDT
,@LastEndDT
,@LastDayCount
,@LastWeekDays);
-- init the new interval
SET @LastContractID = @CurrContractID;
SET @LastStartDT = @Currdt;
SET @LastEndDT = @Currdt;
SET @LastDayCount = 1;
SET @LastMonCount = 0;
SET @LastTueCount = 0;
SET @LastWedCount = 0;
SET @LastThuCount = 0;
SET @LastFriCount = 0;
SET @LastSatCount = 0;
SET @LastSunCount = 0;
IF @CurrdowInt = 1 SET @LastSunCount = @LastSunCount + 1;
IF @CurrdowInt = 2 SET @LastMonCount = @LastMonCount + 1;
IF @CurrdowInt = 3 SET @LastTueCount = @LastTueCount + 1;
IF @CurrdowInt = 4 SET @LastWedCount = @LastWedCount + 1;
IF @CurrdowInt = 5 SET @LastThuCount = @LastThuCount + 1;
IF @CurrdowInt = 6 SET @LastFriCount = @LastFriCount + 1;
IF @CurrdowInt = 7 SET @LastSatCount = @LastSatCount + 1;
END ELSE BEGIN
-- update last interval
SET @LastEndDT = @Currdt;
SET @LastDayCount = @LastDayCount + 1;
IF @CurrdowInt = 1 SET @LastSunCount = @LastSunCount + 1;
IF @CurrdowInt = 2 SET @LastMonCount = @LastMonCount + 1;
IF @CurrdowInt = 3 SET @LastTueCount = @LastTueCount + 1;
IF @CurrdowInt = 4 SET @LastWedCount = @LastWedCount + 1;
IF @CurrdowInt = 5 SET @LastThuCount = @LastThuCount + 1;
IF @CurrdowInt = 6 SET @LastFriCount = @LastFriCount + 1;
IF @CurrdowInt = 7 SET @LastSatCount = @LastSatCount + 1;
END;
FETCH NEXT FROM @VarCursor INTO @CurrContractID, @Currdt, @CurrdowChar, @CurrdowInt;
SET @iFS = @@FETCH_STATUS;
END;
-- save the last interval into the final table
IF @LastDayCount > 0
BEGIN
SET @LastWeekDays = '';
IF @LastSunCount > 0 SET @LastWeekDays = @LastWeekDays + 'Sun,';
IF @LastMonCount > 0 SET @LastWeekDays = @LastWeekDays + 'Mon,';
IF @LastTueCount > 0 SET @LastWeekDays = @LastWeekDays + 'Tue,';
IF @LastWedCount > 0 SET @LastWeekDays = @LastWeekDays + 'Wed,';
IF @LastThuCount > 0 SET @LastWeekDays = @LastWeekDays + 'Thu,';
IF @LastFriCount > 0 SET @LastWeekDays = @LastWeekDays + 'Fri,';
IF @LastSatCount > 0 SET @LastWeekDays = @LastWeekDays + 'Sat,';
INSERT INTO #Dst_V2
(ContractID
,StartDT
,EndDT
,DayCount
,WeekDays)
VALUES
(@LastContractID
,@LastStartDT
,@LastEndDT
,@LastDayCount
,@LastWeekDays);
END;
CLOSE @VarCursor;
DEALLOCATE @VarCursor;
SET DATEFIRST @VarOldDateFirst;
DROP TABLE #Dst_V2;
Vladimirのカーソルソリューション が遅いので少し驚いたので、そのバージョンも最適化しようとしました。私もカーソルの使用が非常に遅いことを確認しました。
ただし、行セットの処理中に変数に追加することにより、SQL Serverで文書化されていない機能を使用する代わりに、最適な結果を生成し、カーソルと元のソリューションの両方よりもはるかに高速に実行する、このロジックの簡略化したバージョンを作成できました。したがって、ご自身の責任で使用してください。ただし、興味がある場合に備えて、解決策を紹介します。 WHILE
ループを1から最大行番号に使用するようにソリューションを更新し、ループの各反復で次の行番号を探すこともできます。これは完全に文書化された信頼できる機能に固執しますが、WHILE
ループが許可されないという問題の(やや人工的な)表明された制約に違反します。
SQL 2014の使用が許可された場合、行番号をループしてメモリ最適化テーブルの各行番号にアクセスする ネイティブにコンパイルされたストアドプロシージャ がこれと同じ実装になる可能性があることに注意してください。より速く実行されるロジック。
これが完全なソリューションです 、設定された試行データを約50万行に拡張することを含みます。新しいソリューションは約3秒で完了します。私の意見では、私が提供した以前のソリューションよりもはるかに簡潔で読みやすくなっています。ここに含まれる3つのステップを説明します。
ステップ1:前処理
最初に、データを処理する順序で、データセットに行番号を追加します。その際、各dowIntを2の累乗に変換するので、ビットマップを使用して、特定のグループで観測された日を表すことができます。
IF OBJECT_ID('tempdb..#srcWithRn') IS NOT NULL
DROP TABLE #srcWithRn
GO
SELECT rn = IDENTITY(INT, 1, 1), ContractId, dt, dowInt,
POWER(2, dowInt) AS dowPower, dowChar
INTO #srcWithRn
FROM #src
ORDER BY ContractId, dt
GO
ALTER TABLE #srcWithRn
ADD PRIMARY KEY (rn)
GO
ステップ2:新しいグループを識別するために契約日をループする
次に、行番号順にデータをループします。新しいグループの境界を形成する行番号のリストのみを計算し、それらの行番号をテーブルに出力します。
DECLARE @ContractId INT, @RnList VARCHAR(MAX), @NewGrouping BIT = 0, @DowBitmap INT = 0, @startDt DATE
SELECT TOP 1 @ContractId = ContractId, @startDt = dt, @RnList = ',' + CONVERT(VARCHAR(MAX), rn), @DowBitmap = DowPower
FROM #srcWithRn
WHERE rn = 1
SELECT
-- New grouping if new contract, or if we're observing a new day that we did
-- not observe within the first 7 days of the grouping
@NewGrouping = CASE
WHEN ContractId <> @ContractId THEN 1
WHEN DATEDIFF(DAY, @startDt, dt) > 6
AND @DowBitmap & dowPower <> dowPower THEN 1
ELSE 0
END,
@ContractId = ContractId,
-- If this is a newly observed day in an existing grouping, add it to the bitmap
@DowBitmap = CASE WHEN @NewGrouping = 0 THEN @DowBitmap | DowPower ELSE DowPower END,
-- If this is a new grouping, reset the start date of the grouping
@startDt = CASE WHEN @NewGrouping = 0 THEN @startDt ELSE dt END,
-- If this is a new grouping, add this rn to the list of row numbers that delineate the boundary of a new grouping
@RnList = CASE WHEN @NewGrouping = 0 THEN @RnList ELSE @RnList + ',' + CONVERT(VARCHAR(MAX), rn) END
FROM #srcWithRn
WHERE rn >= 2
ORDER BY rn
OPTION (MAXDOP 1)
-- Split the list of grouping boundaries into a table
IF OBJECT_ID('tempdb..#newGroupingRns') IS NOT NULL
DROP TABLE #newGroupingRns
SELECT splitListId AS rn
INTO #newGroupingRns
FROM dbo.f_delimitedIntListSplitter(SUBSTRING(@RnList, 2, 1000000000), DEFAULT)
GO
ALTER TABLE #newGroupingRns
ADD PRIMARY KEY (rn)
GO
ステップ3:各グループ化境界の行番号に基づいて最終結果を計算する
次に、上記のループで識別された境界を使用して最終的なグループを計算し、各グループに該当するすべての日付を集計します。
IF OBJECT_ID('tempdb..#finalGroupings') IS NOT NULL
DROP TABLE #finalGroupings
GO
SELECT MIN(s.ContractId) AS ContractId,
MIN(dt) AS StartDT,
MAX(dt) AS EndDT,
COUNT(*) AS DayCount,
CASE WHEN MAX(CASE WHEN dowChar = 'Sun' THEN 1 ELSE 0 END) = 1 THEN 'Sun,' ELSE '' END +
CASE WHEN MAX(CASE WHEN dowChar = 'Mon' THEN 1 ELSE 0 END) = 1 THEN 'Mon,' ELSE '' END +
CASE WHEN MAX(CASE WHEN dowChar = 'Tue' THEN 1 ELSE 0 END) = 1 THEN 'Tue,' ELSE '' END +
CASE WHEN MAX(CASE WHEN dowChar = 'Wed' THEN 1 ELSE 0 END) = 1 THEN 'Wed,' ELSE '' END +
CASE WHEN MAX(CASE WHEN dowChar = 'Thu' THEN 1 ELSE 0 END) = 1 THEN 'Thu,' ELSE '' END +
CASE WHEN MAX(CASE WHEN dowChar = 'Fri' THEN 1 ELSE 0 END) = 1 THEN 'Fri,' ELSE '' END +
CASE WHEN MAX(CASE WHEN dowChar = 'Sat' THEN 1 ELSE 0 END) = 1 THEN 'Sat,' ELSE '' END AS WeekDays
INTO #finalGroupings
FROM #srcWithRn s
CROSS APPLY (
-- For any row, its grouping is the largest boundary row number that occurs at or before this row
SELECT TOP 1 rn AS groupingRn
FROM #newGroupingRns grp
WHERE grp.rn <= s.rn
ORDER BY grp.rn DESC
) g
GROUP BY g.groupingRn
ORDER BY g.groupingRn
GO
ディスカッションはコードに従います。
_declare @Helper table(
rn tinyint,
dowInt tinyint,
dowChar char(3));
insert @Helper
values ( 1,1,'Sun'),
( 2,2,'Mon'),
( 3,3,'Tue'),
( 4,4,'Wed'),
( 5,5,'Thu'),
( 6,6,'Fri'),
( 7,7,'Sat'),
( 8,1,'Sun'),
( 9,2,'Mon'),
(10,3,'Tue'),
(11,4,'Wed'),
(12,5,'Thu'),
(13,6,'Fri'),
(14,7,'Sat');
with MissingDays as
(
select
h1.rn as rn1,
h1.dowChar as StartDay,
h2.rn as rn2,
h2.dowInt as FollowingDayInt,
h2.dowChar as FollowingDayChar
from @Helper as h1
inner join @Helper as h2
on h2.rn > h1.rn
where h1.rn < 8
and h2.rn < h1.rn + 8
)
,Numbered as
(
select
a.*,
ROW_NUMBER() over (partition by a.ContractID order by a.dt) as rn
from #Src as a
)
,Incremented as
(
select
b.*,
convert(varchar(max), b.dowChar)+',' as WeekDays,
b.dt as IntervalStart
from Numbered as b
where b.rn = 1
union all
select
c.*,
case
when
(DATEDIFF(day, d.IntervalStart, c.dt) > 6) -- interval goes beyond 7 days
and (
(d.WeekDays not like '%'+c.dowChar+'%') -- the new week day has not been seen before
or
(DATEDIFF(day, d.dt, c.dt) > 7)
or
(
(DATEDIFF(day, d.dt, c.dt) > 1)
and
(
exists( select
e.FollowingDayChar
from MissingDays as e
where e.StartDay = d.dowChar
and rn2 < (select f.rn2 from MissingDays as f
where f.StartDay = d.dowChar
and f.FollowingDayInt = c.dowInt)
and d.WeekDays like '%'+e.FollowingDayChar+'%'
)
)
)
)
then convert(varchar(max),c.dowChar)+','
else
case
when d.WeekDays like '%'+c.dowChar+'%'
then d.WeekDays
else d.WeekDays+convert(varchar(max),c.dowChar)+','
end
end,
case
when
(DATEDIFF(day, d.IntervalStart, c.dt) > 6) -- interval goes beyond 7 days
and (
(d.WeekDays not like '%'+c.dowChar+'%') -- the new week day has not been seen before
or
(DATEDIFF(day, d.dt, c.dt) > 7) -- there is a one week gap
or
(
(DATEDIFF(day, d.dt, c.dt) > 1) -- there is a gap..
and
(
exists( select -- .. and the omitted days are in the preceeding interval
e.FollowingDayChar
from MissingDays as e
where e.StartDay = d.dowChar
and rn2 < (select f.rn2 from MissingDays as f
where f.StartDay = d.dowChar
and f.FollowingDayInt = c.dowInt)
and d.WeekDays like '%'+e.FollowingDayChar+'%'
)
)
)
)
then c.dt
else d.IntervalStart
end
from Numbered as c
inner join Incremented as d
on d.ContractID = c.ContractID
and d.rn = c.rn - 1
)
select
g.ContractID,
g.IntervalStart as StartDT,
MAX(g.dt) as EndDT,
COUNT(*) as DayCount,
MAX(g.WeekDays) as WeekDays
from Incremented as g
group by
g.ContractID,
g.IntervalStart
order by
ContractID,
StartDT;
_
_@Helper
_はこのルールに対処するためのものです:
間隔の現在の日と最終日の間のギャップに、前の間隔に含まれていた曜日が含まれている場合、新しい間隔を作成する必要があります
与えられた任意の2日間の曜日名で、曜日名をリストすることができます。これは、新しい間隔を開始するかどうかを決定するときに使用されます。 2週間分の値を入力して、週末のラップをコーディングしやすくします。
これを実装するためのより明確な方法があります。完全な「日付」テーブルが1つになります。おそらく、日数とモジュロ演算の賢い方法もあるでしょう。
CTE MissingDays
は、任意の2つの日の間の曜日名のリストを生成します。再帰CTE(以下)では集計、TOP()、またはその他の演算子が許可されないため、この扱いにくい方法で処理されます。これはエレガントではありませんが、機能します。
CTE Numbered
は、既知のギャップのないシーケンスをデータに適用します。それは後で多くの比較を避けます。
CTE Incremented
は、アクションが発生する場所です。本質的に、私は再帰的なCTEを使用してデータをステップ実行し、ルールを適用します。 Numbered
(上記)で生成された行番号は、再帰処理を実行するために使用されます。
再帰CTEのシードは、各ContractIDの最初の日付を取得し、新しい間隔が必要かどうかを決定するために使用される値を初期化するだけです。
新しい間隔を開始するかどうかを決定するには、現在の間隔の開始日、日付リスト、およびカレンダー日付のギャップの長さが必要です。これらは、決定に応じて、リセットまたは繰り越されます。したがって、複数の列の値に対して新しい間隔を開始するかどうかを決定する必要があるため、再帰部分は冗長で少し繰り返されます。
列WeekDays
とIntervalStart
の決定ロジックは、同じ決定ロジックを持つ必要があります-それらの間でカットアンドペーストできます。新しい間隔を開始するためのロジックが変更された場合、これは変更するコードです。したがって、理想的には抽象化されます。再帰的なCTEでこれを行うのは困難な場合があります。
EXISTS()
句は、再帰CTEで集計関数を使用できないことの派生です。ギャップ内にある日がすでに現在の間隔にあるかどうかを確認します。
論理句の入れ子には魔法はありません。別のコンフォメーションやネストされたCASEを使用した方が明確な場合は、このようにしておく理由はありません。
最後のSELECT
は、目的の形式で出力を提供することです。
_Src.ID
_にPKを設定しても、このメソッドには役立ちません。 _(ContractID,dt)
_のクラスター化インデックスはいいと思います。
いくつかの荒いエッジがあります。日はダウシーケンスでは返されませんが、カレンダーシーケンスではソースデータに表示されます。 @Helperで行うすべてのことは扱いにくく、スムーズにすることができます。 1日あたり1ビットを使用し、LIKE
の代わりにバイナリ関数を使用するのが好きです。いくつかの補助CTEを適切なインデックスで一時テーブルに分離すると、間違いなく役立つでしょう。
これに関する課題の1つは、「週」が標準のカレンダーと一致せず、データによって駆動され、新しい間隔を開始する必要があると判断されたときにリセットされることです。 「週」、または少なくとも間隔は、1日からデータセット全体にわたる場合があります。
参考までに、さまざまな変更を行った後のGeoffのサンプルデータに対する見積もりコスト(ありがとうございます!)
_ estimated cost
My submission as is w/ CTEs, Geoff's data: 791682
Geoff's data, cluster key on (ContractID, dt): 21156.2
Real table for MissingDays: 21156.2
Numbered as table UCI=(ContractID, rn): 16.6115 26s elapsed.
UCI=(rn, ContractID): 41.9845 26s elapsed.
MissingDays as refactored to simple lookup 16.6477 22s elapsed.
Weekdays as varchar(30) 13.4013 30s elapsed.
_
行の推定数と実際の数は大きく異なります。
計画には、おそらく再帰的なCTEの結果として、テーブルスプーがあります。アクションのほとんどは、次のような作業テーブルで行われます。
_Table 'Worktable'. Scan count 2, logical reads 4 196 269, physical reads 0, read-ahead reads 0, lob logical reads 0, lob physical reads 0, lob read-ahead reads 0.
Table 'MissingDays'. Scan count 464 116, logical reads 928 232, physical reads 0, read-ahead reads 0, lob logical reads 0, lob physical reads 0, lob read-ahead reads 0.
Table 'Numbered'. Scan count 484 122, logical reads 1 475 467, physical reads 0, read-ahead reads 0, lob logical reads 0, lob physical reads 0, lob read-ahead reads 0.
_
再帰的な方法が実装されたと思います!