SQL Serverで中央値を計算する機能

Question

MSDN によると、MedianはTransact-SQLの集約関数としては使用できません。ただし、この機能を作成できるかどうか（ Create Aggregate 関数、ユーザー定義関数、またはその他の方法を使用して）を確認したいと思います。

これを行うには（可能であれば）最善の方法は何でしょうか。集計クエリで中央値（数値データ型を想定）の計算を可能にしますか？

Justin Grant · Accepted Answer

これを実行する方法はたくさんありますが、パフォーマンスは劇的に異なります。これは 中央値、ROW_NUMBER、およびパフォーマンス から、特に最適化された1つの解決策です。実行中に生成される実際のI/Oに関しては、これは特に最適なソリューションです。他のソリューションよりもコストがかかりますが、実際ははるかに高速です。

このページには、他のソリューションとパフォーマンステストの詳細についての説明も含まれています。中央値列の値が同じ行が複数ある場合は、曖昧さをなくすために一意の列を使用することに注意してください。

すべてのデータベースパフォーマンスシナリオと同様に、常に実際のハードウェアで実際のデータを使用してソリューションをテストしてみてください。SQLServerのオプティマイザの変更や環境の特殊性によって通常のスピードのソリューションが遅くなることはわかりません。

SELECT CustomerId, AVG(TotalDue) FROM ( SELECT CustomerId, TotalDue, -- SalesOrderId in the ORDER BY is a disambiguator to break ties ROW_NUMBER() OVER ( PARTITION BY CustomerId ORDER BY TotalDue ASC, SalesOrderId ASC) AS RowAsc, ROW_NUMBER() OVER ( PARTITION BY CustomerId ORDER BY TotalDue DESC, SalesOrderId DESC) AS RowDesc FROM Sales.SalesOrderHeader SOH ) x WHERE RowAsc IN (RowDesc, RowDesc - 1, RowDesc + 1) GROUP BY CustomerId ORDER BY CustomerId;

Jeff Atwood · Answer

SQL 2005以上を使用している場合、これはテーブル内の単一の列に対するナイスで単純な中央値計算です。

SELECT ( (SELECT MAX(Score) FROM (SELECT TOP 50 PERCENT Score FROM Posts ORDER BY Score) AS BottomHalf) + (SELECT MIN(Score) FROM (SELECT TOP 50 PERCENT Score FROM Posts ORDER BY Score DESC) AS TopHalf) ) / 2 AS Median

Simon_Weaver · Answer

SQL Server 2012では、 PERCENTILE_CONT を使用する必要があります。

SELECT SalesOrderID, OrderQty, PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY OrderQty) OVER (PARTITION BY SalesOrderID) AS MedianCont FROM Sales.SalesOrderDetail WHERE SalesOrderID IN (43670, 43669, 43667, 43663) ORDER BY SalesOrderID DESC

また参照してください： http://blog.sqlauthority.com/2011/11/20/sql-server-introduction-to-percentile_cont-analytic-functions-introduced-in-sql-server-2012/

Sir Wobin · Answer

私の最初の素早い答えは、

select max(my_column) as [my_column], quartile from (select my_column, ntile(4) over (order by my_column) as [quartile] from my_table) i --where quartile = 2 group by quartile

これにより、中央値と四分位数の範囲が一気に下がります。中央値である1つの行のみが本当に必要な場合は、where句のコメントを外します。

これをExplain Planに入れると、作業の60％が、このように位置依存統計を計算するときに避けられないデータをソートすることになります。

以下のコメントでRobertŠevčík-Robajzからの優れた提案に従うように答えを修正しました。

;with PartitionedData as (select my_column, ntile(10) over (order by my_column) as [percentile] from my_table), MinimaAndMaxima as (select min(my_column) as [low], max(my_column) as [high], percentile from PartitionedData group by percentile) select case when b.percentile = 10 then cast(b.high as decimal(18,2)) else cast((a.low + b.high) as decimal(18,2)) / 2 end as [value], --b.high, a.low, b.percentile from MinimaAndMaxima a join MinimaAndMaxima b on (a.percentile -1 = b.percentile) or (a.percentile = 10 and b.percentile = 10) --where b.percentile = 5

偶数のデータ項目がある場合、これは正しい中央値とパーセンタイル値を計算します。繰り返しますが、パーセンタイル分布全体ではなく中央値のみが必要な場合は、最後のwhere句のコメントを外します。

l--&#39;&#39;&#39;&#39;&#39;&#39;---------&#39;&#39;&#39;&#39;&#39;&#39;&#39;&#39;&#39;&#39;&#39;&#39; · Answer

さらにもっと良い：

SELECT @Median = AVG(1.0 * val) FROM ( SELECT o.val, rn = ROW_NUMBER() OVER (ORDER BY o.val), c.c FROM dbo.EvenRows AS o CROSS JOIN (SELECT c = COUNT(*) FROM dbo.EvenRows) AS c ) AS x WHERE rn IN ((c + 1)/2, (c + 2)/2);

ご主人様ご自身から Itzik Ben-Gan ！

enkryptor · Answer

MS SQL Server 2012以降には、ソートされた値の特定のパーセンタイルを計算するPERCENTILE_DISC関数があります。 PERCENTILE_DISC（0.5）は中央値を計算します - https://msdn.Microsoft.com/ja-jp/library/hh231327.aspx

Rono · Answer

SQL ServerでCreate Aggregate関数を使用する場合は、これを実行する方法です。このようにすると、きれいなクエリを書くことができるという利点があります。このプロセスはパーセンタイル値をかなり簡単に計算するのに適しています。

新しいVisual Studioプロジェクトを作成し、ターゲットフレームワークを.NET 3.5に設定します（これはSQL 2008用です。SQL2012では異なる可能性があります）。それからクラスファイルを作成して、以下のコードを入れるか、またはc＃と同等のものを入れてください

Imports Microsoft.SqlServer.Server Imports System.Data.SqlTypes Imports System.IO <Serializable> <SqlUserDefinedAggregate(Format.UserDefined, IsInvariantToNulls:=True, IsInvariantToDuplicates:=False, _ IsInvariantToOrder:=True, MaxByteSize:=-1, IsNullIfEmpty:=True)> Public Class Median Implements IBinarySerialize Private _items As List(Of Decimal) Public Sub Init() _items = New List(Of Decimal)() End Sub Public Sub Accumulate(value As SqlDecimal) If Not value.IsNull Then _items.Add(value.Value) End If End Sub Public Sub Merge(other As Median) If other._items IsNot Nothing Then _items.AddRange(other._items) End If End Sub Public Function Terminate() As SqlDecimal If _items.Count <> 0 Then Dim result As Decimal _items = _items.OrderBy(Function(i) i).ToList() If _items.Count Mod 2 = 0 Then result = ((_items((_items.Count / 2) - 1)) + (_items(_items.Count / 2))) / 2@ Else result = _items((_items.Count - 1) / 2) End If Return New SqlDecimal(result) Else Return New SqlDecimal() End If End Function Public Sub Read(r As BinaryReader) Implements IBinarySerialize.Read 'deserialize it from a string Dim list = r.ReadString() _items = New List(Of Decimal) For Each value In list.Split(","c) Dim number As Decimal If Decimal.TryParse(value, number) Then _items.Add(number) End If Next End Sub Public Sub Write(w As BinaryWriter) Implements IBinarySerialize.Write 'serialize the list to a string Dim list = "" For Each item In _items If list <> "" Then list += "," End If list += item.ToString() Next w.Write(list) End Sub End Class

次にそれをコンパイルし、DLLおよびPDBファイルをSQL Serverマシンにコピーして、SQL Serverで次のコマンドを実行します。

CREATE Assembly CustomAggregate FROM '{path to your DLL}' WITH PERMISSION_SET=SAFE; GO CREATE AGGREGATE Median(@value decimal(9, 3)) RETURNS decimal(9, 3) EXTERNAL NAME [CustomAggregate].[{namespace of your DLL}.Median]; GO

次に、このように中央値を計算するためのクエリを書くことができます。SELECT dbo.Median（Field）FROM Table

Tobbi · Answer

シンプル、高速、正確

SELECT x.Amount FROM (SELECT amount, Count(1) OVER (partition BY 'A') AS TotalRows, Row_number() OVER (ORDER BY Amount ASC) AS AmountOrder FROM facttransaction ft) x WHERE x.AmountOrder = Round(x.TotalRows / 2.0, 0)

PyQL · Answer

次のクエリは、1列の値の一覧から中央値を返します。集約関数として使用することはできませんが、内部選択でWHERE句を使用した副問合せとして使用することはできます。

SQL Server 2005 +：

SELECT TOP 1 value from ( SELECT TOP 50 PERCENT value FROM table_name ORDER BY value )for_median ORDER BY value DESC

brian · Answer

中央値へのセットベースの解決策を探している間、私はちょうどこのページに出くわした。ここでいくつかの解決策を見た後、私は以下を思い付きました。希望は助け/働きます。

DECLARE @test TABLE( i int identity(1,1), id int, score float ) INSERT INTO @test (id,score) VALUES (1,10) INSERT INTO @test (id,score) VALUES (1,11) INSERT INTO @test (id,score) VALUES (1,15) INSERT INTO @test (id,score) VALUES (1,19) INSERT INTO @test (id,score) VALUES (1,20) INSERT INTO @test (id,score) VALUES (2,20) INSERT INTO @test (id,score) VALUES (2,21) INSERT INTO @test (id,score) VALUES (2,25) INSERT INTO @test (id,score) VALUES (2,29) INSERT INTO @test (id,score) VALUES (2,30) INSERT INTO @test (id,score) VALUES (3,20) INSERT INTO @test (id,score) VALUES (3,21) INSERT INTO @test (id,score) VALUES (3,25) INSERT INTO @test (id,score) VALUES (3,29) DECLARE @counts TABLE( id int, cnt int ) INSERT INTO @counts ( id, cnt ) SELECT id, COUNT(*) FROM @test GROUP BY id SELECT drv.id, drv.start, AVG(t.score) FROM ( SELECT MIN(t.i)-1 AS start, t.id FROM @test t GROUP BY t.id ) drv INNER JOIN @test t ON drv.id = t.id INNER JOIN @counts c ON t.id = c.id WHERE t.i = ((c.cnt+1)/2)+drv.start OR ( t.i = (((c.cnt+1)%2) * ((c.cnt+2)/2))+drv.start AND ((c.cnt+1)%2) * ((c.cnt+2)/2) <> 0 ) GROUP BY drv.id, drv.start

Jeff Sisson · Answer

Justin grantの解決策はしっかりしているように見えますが、あなたが与えられたパーティションキー内にいくつかの重複値があると、ASC重複値の行番号は順序が狂って正しく整列しません。

これが私の結果からの断片です：

KEY VALUE ROWA ROWD 13 2 22 182 13 1 6 183 13 1 7 184 13 1 8 185 13 1 9 186 13 1 10 187 13 1 11 188 13 1 12 189 13 0 1 190 13 0 2 191 13 0 3 192 13 0 4 193 13 0 5 194

このソリューションの基礎としてJustinのコードを使用しました。複数の派生テーブルを使用すると効率的ではありませんが、私が遭遇した行の順序付けの問題は解決されます。私はT-SQLの経験が少ないので、どんな改善でも大歓迎です。

SELECT PKEY, cast(AVG(VALUE)as decimal(5,2)) as MEDIANVALUE FROM ( SELECT PKEY,VALUE,ROWA,ROWD, 'FLAG' = (CASE WHEN ROWA IN (ROWD,ROWD-1,ROWD+1) THEN 1 ELSE 0 END) FROM ( SELECT PKEY, cast(VALUE as decimal(5,2)) as VALUE, ROWA, ROW_NUMBER() OVER (PARTITION BY PKEY ORDER BY ROWA DESC) as ROWD FROM ( SELECT PKEY, VALUE, ROW_NUMBER() OVER (PARTITION BY PKEY ORDER BY VALUE ASC,PKEY ASC ) as ROWA FROM [MTEST] )T1 )T2 )T3 WHERE FLAG = '1' GROUP BY PKEY ORDER BY PKEY

Brian Nordberg · Answer

上記のJustinの例はとても良いです。しかし、その主キーの必要性は非常に明確に述べられるべきです。私はキーなしで実際のところそのコードを見てきました、そして結果は悪いです。

Percentile_Contについて私が得た苦情は、データセットから実際の値を得られないことです。データセットから実際の値である「中央値」を取得するには、Percentile_Discを使用します。

SELECT SalesOrderID, OrderQty, PERCENTILE_DISC(0.5) WITHIN GROUP (ORDER BY OrderQty) OVER (PARTITION BY SalesOrderID) AS MedianCont FROM Sales.SalesOrderDetail WHERE SalesOrderID IN (43670, 43669, 43667, 43663) ORDER BY SalesOrderID DESC

Charles Bretana · Answer

UDFでは、次のように書きます。

 Select Top 1 medianSortColumn from Table T Where (Select Count(*) from Table Where MedianSortColumn < (Select Count(*) From Table) / 2) Order By medianSortColumn

karishma kavle · Answer

'table1'から連続変数/メジャー 'col1'の場合

select col1 from (select top 50 percent col1, ROW_NUMBER() OVER(ORDER BY col1 ASC) AS Rowa, ROW_NUMBER() OVER(ORDER BY col1 DESC) AS Rowd from table1 ) tmp where tmp.Rowa = tmp.Rowd

Bill Karwin · Answer

SQLでの中央値計算のための他の解決策をここで見てください： " MySQL を使って中央値を計算する簡単な方法"（解決策は大部分がベンダー非依存です）。

Galled · Answer

私はいくつかの選択肢を試してみましたが、私のデータレコードには値が繰り返されているので、ROW_NUMBERバージョンは私にとっては選択できないようです。だからここで私が使用したクエリ（NTILEのバージョン）：

SELECT distinct CustomerId, ( MAX(CASE WHEN Percent50_Asc=1 THEN TotalDue END) OVER (PARTITION BY CustomerId) + MIN(CASE WHEN Percent50_desc=1 THEN TotalDue END) OVER (PARTITION BY CustomerId) )/2 MEDIAN FROM ( SELECT CustomerId, TotalDue, NTILE(2) OVER ( PARTITION BY CustomerId ORDER BY TotalDue ASC) AS Percent50_Asc, NTILE(2) OVER ( PARTITION BY CustomerId ORDER BY TotalDue DESC) AS Percent50_desc FROM Sales.SalesOrderHeader SOH ) x ORDER BY CustomerId;

Kaveh Hadjari · Answer

これは私が考えることができる中央値を見つけるための最も最適な解決策です。例の中の名前はJustinの例に基づいています。テーブルSales.SalesOrderHeaderのインデックスが、インデックス列CustomerIdとTotalDueの順に存在することを確認してください。

SELECT sohCount.CustomerId, AVG(sohMid.TotalDue) as TotalDueMedian FROM (SELECT soh.CustomerId, COUNT(*) as NumberOfRows FROM Sales.SalesOrderHeader soh GROUP BY soh.CustomerId) As sohCount CROSS APPLY (Select soh.TotalDue FROM Sales.SalesOrderHeader soh WHERE soh.CustomerId = sohCount.CustomerId ORDER BY soh.TotalDue OFFSET sohCount.NumberOfRows / 2 - ((sohCount.NumberOfRows + 1) % 2) ROWS FETCH NEXT 1 + ((sohCount.NumberOfRows + 1) % 2) ROWS ONLY ) As sohMid GROUP BY sohCount.CustomerId

UPDATE

どの方法が最高のパフォーマンスを発揮するかについては少し不確かでしたので、私の方法Justin GrantsとJeff Atwoodsを、3つすべての方法に基づいて1つのバッチで実行し、各クエリのバッチコストを比較しました。

インデックスなし

鉱山30％
ジャスティン助成金13％
ジェフ・アトウッズ58％

そしてインデックス付き

鉱山3％.
ジャスティン助成金10％
ジェフ・アトウッズ87％

私はあなたがインデックスを持っている場合、2の倍数から最大512までのデータを作成することによってインデックスがある場合、クエリがどれほどうまくスケールアップするかを試してみました。注：コピーを1回実行するたびにCustomeIdフィールドが一意であることを確認したため、CustomerIdの一意のインスタンスと比較した行の比率は一定に保たれました。私がこれをしている間、私は後でインデックスを再構築する実行を実行しました、そして私は私がこれらの値に持っていたデータでおよそ128のファクタで安定した結果に気付きました：

鉱山3％.
ジャスティン助成金5％
ジェフ・アトウッズ92％

私はパフォーマンスが行数のスケーリングによってどのように影響される可能性があるのかと思いましたが、一意のCustomerIdを一定に保つので、私はちょうどこれをしたところで新しいテストを設定しました。安定させる代わりに、バッチコストの比率は、平均してCustomerIdごとに約20行ではなく、最終的にはそのような一意のIdごとに約10000行になる代わりに、発散し続けました。数字は、

地雷4％
ジャスティンズ60％
ジェフ35％

結果を比較して、それぞれの方法を正しく実装したことを確認しました。私の結論は、インデックスが存在する限り、私が使用した方法は一般的に速いということです。この方法は、この記事のこの特定の問題に対して推奨されているものでもあります。 https://www.microsoftpressstore.com/articles/article.aspx?p=2314819&seqNum=5

このクエリに対する後続の呼び出しのパフォーマンスをさらにさらに向上させる方法は、カウント情報を補助テーブルに保持することです。 CustomerIdに依存するSalesOrderHeader行の数に関する情報を更新して保持するトリガーを保持することでそれを維持することもできます。もちろん中央値を単純に格納することもできます。

Justine · Answer

基本的なことを学んでいる私自身のような初心者にとって、私は個人的にこの例が従うのがより簡単であると思います。

select ( max(a.[Value1]) + min(a.[Value1]) ) / 2 as [Median Value1] ,( max(a.[Value2]) + min(a.[Value2]) ) / 2 as [Median Value2] from (select datediff(dd,startdate,enddate) as [Value1] ,xxxxxxxxxxxxxx as [Value2] from dbo.table1 )a

上記のコードのいくつかの絶対的な畏敬の念で！

Gregg Silverman · Answer

--Create Temp Table to Store Results in DECLARE @results AS TABLE ( [Month] datetime not null ,[Median] int not null ); --This variable will determine the date DECLARE @IntDate as int set @IntDate = -13 WHILE (@IntDate < 0) BEGIN --Create Temp Table DECLARE @table AS TABLE ( [Rank] int not null ,[Days Open] int not null ); --Insert records into Temp Table insert into @table SELECT rank() OVER (ORDER BY DATEADD(mm, DATEDIFF(mm, 0, DATEADD(ss, SVR.close_date, '1970')), 0), DATEDIFF(day,DATEADD(ss, SVR.open_date, '1970'),DATEADD(ss, SVR.close_date, '1970')),[SVR].[ref_num]) as [Rank] ,DATEDIFF(day,DATEADD(ss, SVR.open_date, '1970'),DATEADD(ss, SVR.close_date, '1970')) as [Days Open] FROM mdbrpt.dbo.View_Request SVR LEFT OUTER JOIN dbo.dtv_apps_systems vapp on SVR.category = vapp.persid LEFT OUTER JOIN dbo.prob_ctg pctg on SVR.category = pctg.persid Left Outer Join [mdbrpt].[dbo].[rootcause] as [Root Cause] on [SVR].[rootcause]=[Root Cause].[id] Left Outer Join [mdbrpt].[dbo].[cr_stat] as [Status] on [SVR].[status]=[Status].[code] LEFT OUTER JOIN [mdbrpt].[dbo].[net_res] as [net] on [net].[id]=SVR.[affected_rc] WHERE SVR.Type IN ('P') AND SVR.close_date IS NOT NULL AND [Status].[SYM] = 'Closed' AND SVR.parent is null AND [Root Cause].[sym] in ( 'RC - Application','RC - Hardware', 'RC - Operational', 'RC - Unknown') AND ( [vapp].[appl_name] in ('3PI','Billing Rpts/Files','Collabrent','Reports','STMS','STMS 2','Telco','Comergent','OOM','C3-BAU','C3-DD','DIRECTV','DIRECTV Sales','DIRECTV Self Care','Dealer Website','EI Servlet','Enterprise Integration','ET','ICAN','ODS','SB-SCM','SeeBeyond','Digital Dashboard','IVR','OMS','Order Services','Retail Services','OSCAR','SAP','CTI','RIO','RIO Call Center','RIO Field Services','FSS-RIO3','TAOS','TCS') OR pctg.sym in ('Systems.Release Health Dashboard.Problem','DTV QA Test.Enterprise Release.Deferred Defect Log') AND [Net].[nr_desc] in ('3PI','Billing Rpts/Files','Collabrent','Reports','STMS','STMS 2','Telco','Comergent','OOM','C3-BAU','C3-DD','DIRECTV','DIRECTV Sales','DIRECTV Self Care','Dealer Website','EI Servlet','Enterprise Integration','ET','ICAN','ODS','SB-SCM','SeeBeyond','Digital Dashboard','IVR','OMS','Order Services','Retail Services','OSCAR','SAP','CTI','RIO','RIO Call Center','RIO Field Services','FSS-RIO3','TAOS','TCS') ) AND DATEADD(mm, DATEDIFF(mm, 0, DATEADD(ss, SVR.close_date, '1970')), 0) = DATEADD(mm, DATEDIFF(mm,0,DATEADD(mm,@IntDate,getdate())), 0) ORDER BY [Days Open] DECLARE @Count AS INT SELECT @Count = COUNT(*) FROM @table; WITH MyResults(RowNo, [Days Open]) AS ( SELECT RowNo, [Days Open] FROM (SELECT ROW_NUMBER() OVER (ORDER BY [Days Open]) AS RowNo, [Days Open] FROM @table) AS Foo ) insert into @results SELECT DATEADD(mm, DATEDIFF(mm,0,DATEADD(mm,@IntDate,getdate())), 0) as [Month] ,AVG([Days Open])as [Median] FROM MyResults WHERE RowNo = (@Count+1)/2 OR RowNo = ((@Count+1)%2) * ((@Count+2)/2) set @IntDate = @IntDate+1 DELETE FROM @table END select * from @results order by [Month]

Gavin · Answer

私は自分で解決策を考えたかったのですが、私の脳がつまずいて途中で倒れました。私考えるそれはうまくいくが、午前中にそれを説明するように私に頼まないでください。：P

DECLARE @table AS TABLE ( Number int not null ); insert into @table select 2; insert into @table select 4; insert into @table select 9; insert into @table select 15; insert into @table select 22; insert into @table select 26; insert into @table select 37; insert into @table select 49; DECLARE @Count AS INT SELECT @Count = COUNT(*) FROM @table; WITH MyResults(RowNo, Number) AS ( SELECT RowNo, Number FROM (SELECT ROW_NUMBER() OVER (ORDER BY Number) AS RowNo, Number FROM @table) AS Foo ) SELECT AVG(Number) FROM MyResults WHERE RowNo = (@Count+1)/2 OR RowNo = ((@Count+1)%2) * ((@Count+2)/2)

Chris Knoll · Answer

大規模データセットの場合は、以下の要点を試すことができます。

https://Gist.github.com/chrisknoll/1b38761ce8c5016ec5b2

それはあなたがあなたのセットの中で見つかるであろう個別の値（例えば年齢、生年など）を集約することによって機能し、そしてあなたが質問で指定するパーセンタイル位置を見つけるためにSQLウィンドウ関数を使います。

Danylo Zherebetskyy · Answer

多くの場合、テーブル全体についてだけでなく、IDに関する集計についても中央値を計算する必要があります。つまり、各IDに多数のレコードがあるテーブルの各IDの中央値を計算します。（@gdoronによって編集されたソリューションに基づく：優れたパフォーマンスと多くのSQLで動作します）

SELECT our_id, AVG(1.0 * our_val) as Median FROM ( SELECT our_id, our_val, COUNT(*) OVER (PARTITION BY our_id) AS cnt, ROW_NUMBER() OVER (PARTITION BY our_id ORDER BY our_val) AS rnk FROM our_table ) AS x WHERE rnk IN ((cnt + 1)/2, (cnt + 2)/2) GROUP BY our_id;

それが役に立てば幸い。

Maria Ines Parnisari · Answer

次の解決策は、これらの前提の下で機能します。

重複値なし
NULLなし

コード：

IF OBJECT_ID('dbo.R', 'U') IS NOT NULL DROP TABLE dbo.R CREATE TABLE R ( A FLOAT NOT NULL); INSERT INTO R VALUES (1); INSERT INTO R VALUES (2); INSERT INTO R VALUES (3); INSERT INTO R VALUES (4); INSERT INTO R VALUES (5); INSERT INTO R VALUES (6); -- Returns Median(R) select SUM(A) / CAST(COUNT(A) AS FLOAT) from R R1 where ((select count(A) from R R2 where R1.A > R2.A) = (select count(A) from R R2 where R1.A < R2.A)) OR ((select count(A) from R R2 where R1.A > R2.A) + 1 = (select count(A) from R R2 where R1.A < R2.A)) OR ((select count(A) from R R2 where R1.A > R2.A) = (select count(A) from R R2 where R1.A < R2.A) + 1) ;

Jim B · Answer

上記のJeff Atwoodの答えを基にして、GROUP BYと、各グループの中央値を取得するための相関副照会を使用します。

SELECT TestID, ( (SELECT MAX(Score) FROM (SELECT TOP 50 PERCENT Score FROM Posts WHERE TestID = Posts_parent.TestID ORDER BY Score) AS BottomHalf) + (SELECT MIN(Score) FROM (SELECT TOP 50 PERCENT Score FROM Posts WHERE TestID = Posts_parent.TestID ORDER BY Score DESC) AS TopHalf) ) / 2 AS MedianScore, AVG(Score) AS AvgScore, MIN(Score) AS MinScore, MAX(Score) AS MaxScore FROM Posts_parent GROUP BY Posts_parent.TestID

Veeramani Natarajan · Answer

あなたの質問のために、Jeff Atwoodはすでに簡単で効果的な解決策を与えていました。しかし、中央値を計算するための別の方法を探しているのであれば、以下のSQLコードが役に立ちます。

create table employees(salary int); insert into employees values(8); insert into employees values(23); insert into employees values(45); insert into employees values(123); insert into employees values(93); insert into employees values(2342); insert into employees values(2238); select * from employees; declare @odd_even int; declare @cnt int; declare @middle_no int; set @cnt=(select count(*) from employees); set @middle_no=(@cnt/2)+1; select @odd_even=case when (@cnt%2=0) THEN -1 ELse 0 END ; select AVG(tbl.salary) from (select salary,ROW_NUMBER() over (order by salary) as rno from employees group by salary) tbl where tbl.rno=@middle_no or tbl.rno=@middle_no+@odd_even;

MySQLで中央値を計算する場合は、 github link が便利です。

Nivesh Krishna · Answer

中央値

これは、属性の中央値を見つける最も簡単な方法です。

Select round(S.salary,4) median from employee S where (select count(salary) from station where salary < S.salary ) = (select count(salary) from station where salary > S.salary)

SQLMason · Answer

これはSQL 2000で動作します。

DECLARE @testTable TABLE ( VALUE INT ) --INSERT INTO @testTable -- Even Test --SELECT 3 UNION ALL --SELECT 5 UNION ALL --SELECT 7 UNION ALL --SELECT 12 UNION ALL --SELECT 13 UNION ALL --SELECT 14 UNION ALL --SELECT 21 UNION ALL --SELECT 23 UNION ALL --SELECT 23 UNION ALL --SELECT 23 UNION ALL --SELECT 23 UNION ALL --SELECT 29 UNION ALL --SELECT 40 UNION ALL --SELECT 56 -- --INSERT INTO @testTable -- Odd Test --SELECT 3 UNION ALL --SELECT 5 UNION ALL --SELECT 7 UNION ALL --SELECT 12 UNION ALL --SELECT 13 UNION ALL --SELECT 14 UNION ALL --SELECT 21 UNION ALL --SELECT 23 UNION ALL --SELECT 23 UNION ALL --SELECT 23 UNION ALL --SELECT 23 UNION ALL --SELECT 29 UNION ALL --SELECT 39 UNION ALL --SELECT 40 UNION ALL --SELECT 56 DECLARE @RowAsc TABLE ( ID INT IDENTITY, Amount INT ) INSERT INTO @RowAsc SELECT VALUE FROM @testTable ORDER BY VALUE ASC SELECT AVG(amount) FROM @RowAsc ra WHERE ra.id IN ( SELECT ID FROM @RowAsc WHERE ra.id - ( SELECT MAX(id) / 2.0 FROM @RowAsc ) BETWEEN 0 AND 1 )

Arie Yehieli · Answer

DECLARE @Obs int DECLARE @RowAsc table ( ID INT IDENTITY, Observation FLOAT ) INSERT INTO @RowAsc SELECT Observations FROM MyTable ORDER BY 1 SELECT @Obs=COUNT(*)/2 FROM @RowAsc SELECT Observation AS Median FROM @RowAsc WHERE ID=@Obs

John P. · Answer

これは私が思いつくことができるのと同じくらい簡単な答えです。私のデータでうまくいった。特定の値を除外したい場合は、内部のselectにwhere句を追加してください。

SELECT TOP 1 ValueField AS MedianValue FROM (SELECT TOP(SELECT COUNT(1)/2 FROM tTABLE) ValueField FROM tTABLE ORDER BY ValueField) A ORDER BY ValueField DESC