web-dev-qa-db-ja.com

SQLテーブルで重複する値を見つける

1つのフィールドでduplicatesを見つけるのは簡単です。

SELECT name, COUNT(email) 
FROM users
GROUP BY email
HAVING COUNT(email) > 1

テーブルがあるとしたら

ID   NAME   EMAIL
1    John   [email protected]
2    Sam    [email protected]
3    Tom    [email protected]
4    Bob    [email protected]
5    Tom    [email protected]

このクエリでは、 John、Sam、Tom、Tom のようになります。これらはすべて同じemailを持つためです。

しかし、私が欲しいのは、同じemailnameを使って重複を取得することです。

つまり、 "Tom"、 "Tom"を取得したいのです。

私がこれを必要とする理由:私はミスを犯し、そして重複したnameemail値を挿入することを許しました。今、私は 削除/変更 重複を削除する必要があるので、最初に 検索 それらを実行する必要があります。

1527
Alex
SELECT
    name, email, COUNT(*)
FROM
    users
GROUP BY
    name, email
HAVING 
    COUNT(*) > 1

両方の列を単純にグループ化します。

注意:以前のANSI規格では、GROUP BYにすべての非集約列を含めることになっていましたが、これは "機能上の依存関係" :の考え方によって変わりました

リレーショナルデータベース理論では、機能的依存関係は、データベースからの関係における2セットの属性間の制約です。言い換えれば、機能的依存関係は、関係内の属性間の関係を記述する制約です。

サポートは一貫していません:

2472
gbn

これを試して:

declare @YourTable table (id int, name varchar(10), email varchar(50))

INSERT @YourTable VALUES (1,'John','John-email')
INSERT @YourTable VALUES (2,'John','John-email')
INSERT @YourTable VALUES (3,'fred','John-email')
INSERT @YourTable VALUES (4,'fred','fred-email')
INSERT @YourTable VALUES (5,'sam','sam-email')
INSERT @YourTable VALUES (6,'sam','sam-email')

SELECT
    name,email, COUNT(*) AS CountOf
    FROM @YourTable
    GROUP BY name,email
    HAVING COUNT(*)>1

出力:

name       email       CountOf
---------- ----------- -----------
John       John-email  2
sam        sam-email   2

(2 row(s) affected)

あなたがDupsのIDが欲しいならこれを使います

SELECT
    y.id,y.name,y.email
    FROM @YourTable y
        INNER JOIN (SELECT
                        name,email, COUNT(*) AS CountOf
                        FROM @YourTable
                        GROUP BY name,email
                        HAVING COUNT(*)>1
                    ) dt ON y.name=dt.name AND y.email=dt.email

出力:

id          name       email
----------- ---------- ------------
1           John       John-email
2           John       John-email
5           sam        sam-email
6           sam        sam-email

(4 row(s) affected)

重複を削除するには

DELETE d
    FROM @YourTable d
        INNER JOIN (SELECT
                        y.id,y.name,y.email,ROW_NUMBER() OVER(PARTITION BY y.name,y.email ORDER BY y.name,y.email,y.id) AS RowRank
                        FROM @YourTable y
                            INNER JOIN (SELECT
                                            name,email, COUNT(*) AS CountOf
                                            FROM @YourTable
                                            GROUP BY name,email
                                            HAVING COUNT(*)>1
                                        ) dt ON y.name=dt.name AND y.email=dt.email
                   ) dt2 ON d.id=dt2.id
        WHERE dt2.RowRank!=1
SELECT * FROM @YourTable

出力: 

id          name       email
----------- ---------- --------------
1           John       John-email
3           fred       John-email
4           fred       fred-email
5           sam        sam-email

(4 row(s) affected)
306
KM.

これを試して:

SELECT name, email
FROM users
GROUP BY name, email
HAVING ( COUNT(*) > 1 )
98

重複を削除したい場合は、偶数/奇数行を3つめの副選択に入れるよりも、はるかに簡単な方法です。

SELECT id, name, email 
FROM users u, users u2
WHERE u.name = u2.name AND u.email = u2.email AND u.id > u2.id

そして削除するには:

DELETE FROM users
WHERE id IN (
    SELECT id/*, name, email*/
    FROM users u, users u2
    WHERE u.name = u2.name AND u.email = u2.email AND u.id > u2.id
)

私見の方がずっと読みやすく理解しやすい

注: 唯一の問題は、削除される行がなくなるまで要求を実行する必要があることです。これは、毎回1つの複製のみを削除するためです。

50
AncAinu

以下を試してください。

SELECT * FROM
(
    SELECT Id, Name, Age, Comments, Row_Number() OVER(PARTITION BY Name, Age ORDER By Name)
        AS Rank 
        FROM Customers
) AS B WHERE Rank>1
34
gaurav singh
 SELECT name, email 
    FROM users
    WHERE email in
    (SELECT email FROM users
    GROUP BY email 
    HAVING COUNT(*)>1)
25

パーティーには少し遅れましたが、私はすべての重複するIDを見つけるための本当にクールな回避策を見つけました:

SELECT GROUP_CONCAT( id )
FROM users
GROUP BY email
HAVING ( COUNT(email) > 1 )
18
Indivision Dev

このコードを試してください

WITH CTE AS

( SELECT Id, Name, Age, Comments, RN = ROW_NUMBER()OVER(PARTITION BY Name,Age ORDER BY ccn)
FROM ccnmaster )
select * from CTE 
15
Tanmay Nehete

Oracleを使用している場合は、この方法が適しています。

create table my_users(id number, name varchar2(100), email varchar2(100));

insert into my_users values (1, 'John', '[email protected]');
insert into my_users values (2, 'Sam', '[email protected]');
insert into my_users values (3, 'Tom', '[email protected]');
insert into my_users values (4, 'Bob', '[email protected]');
insert into my_users values (5, 'Tom', '[email protected]');

commit;

select *
  from my_users
 where rowid not in (select min(rowid) from my_users group by name, email);
14
xDBA

これは、各重複グループから1レコードを除いて、すべての重複レコードを選択/削除します。したがって、削除によって、重複の各グループからすべての一意のレコードと1つのレコードが残ります。

重複を選択してください。

SELECT *
FROM table
WHERE
    id NOT IN (
        SELECT MIN(id)
        FROM table
        GROUP BY column1, column2
);

重複を削除します。

DELETE FROM table
WHERE
    id NOT IN (
        SELECT MIN(id)
        FROM table
        GROUP BY column1, column2
);

大量のレコードに注意してください。パフォーマンスの問題を引き起こす可能性があります。  

13
select id,name,COUNT(*) from India group by Id,Name having COUNT(*)>1
8
Debendra Dash

どうやって二重の値を数えることができますか?.

単純な 

select COUNT(distinct col_01) from Table_01
7
Muhammad Tahir

これは私が思いついた簡単なことです。これは共通テーブル式(CTE)とパーティションウィンドウを使用します(これらの機能はSQL 2008以降にあると思います)。

この例では、名前とdobが重複しているすべての学生が検索されます。重複をチェックしたいフィールドは、OVER句にあります。投影法に必要な他のフィールドを含めることができます。

with cte (StudentId, Fname, LName, DOB, RowCnt)
as (
SELECT StudentId, FirstName, LastName, DateOfBirth as DOB, SUM(1) OVER (Partition By FirstName, LastName, DateOfBirth) as RowCnt
FROM tblStudent
)
SELECT * from CTE where RowCnt > 1
ORDER BY DOB, LName
6
Darrel Lee
select name, email
, case 
when ROW_NUMBER () over (partition by name, email order by name) > 1 then 'Yes'
else 'No'
end "duplicated ?"
from users
6
Narendra

テーブルに重複する行があるかどうかを確認したい場合は、以下のクエリを使用しました。

create table my_table(id int, name varchar(100), email varchar(100));

insert into my_table values (1, 'shekh', '[email protected]');
insert into my_table values (1, 'shekh', '[email protected]');
insert into my_table values (2, 'Aman', '[email protected]');
insert into my_table values (3, 'Tom', '[email protected]');
insert into my_table values (4, 'Raj', '[email protected]');


Select COUNT(1) As Total_Rows from my_table 
Select Count(1) As Distinct_Rows from ( Select Distinct * from my_table) abc 
6
shekhar singh

SELECT id, COUNT(id) FROM table1 GROUP BY id HAVING COUNT(id)>1;

これは特定の列で繰り返される値を検索するのに適切に機能すると思います。

6
user4877838

これもうまくいくはずです。

  Select * from Users a
            where EXISTS (Select * from Users b 
                where (     a.name = b.name 
                        OR  a.email = b.email)
                     and a.ID != b.id)

あなたの場合に特に良いあなたが例えばのようなある種の接頭辞や一般的な変化を持っている重複を検索するならば。メールで新しいドメイン。それならあなたはこれらのカラムでreplace()を使うことができます

5
veritaS
 select emp.ename, emp.empno, dept.loc 
          from emp
 inner join dept 
          on dept.deptno=emp.deptno
 inner join
    (select ename, count(*) from
    emp
    group by ename, deptno
    having count(*) > 1)
 t on emp.ename=t.ename order by emp.ename
/
5
naveed

CTEを使用することで、このように重複した値を見つけることができます

with MyCTE
as
(
select Name,EmailId,ROW_NUMBER() over(PARTITION BY EmailId order by id) as Duplicate from [Employees]

)
select * from MyCTE where Duplicate>1
5
Debendra Dash

(1つまたは複数の基準で)重複データを見つけたい場合は、実際の行を選択します。

with MYCTE as (
    SELECT DuplicateKey1
        ,DuplicateKey2 --optional
        ,count(*) X
    FROM MyTable
    group by DuplicateKey1, DuplicateKey2
    having count(*) > 1
) 
SELECT E.*
FROM MyTable E
JOIN MYCTE cte
ON E.DuplicateKey1=cte.DuplicateKey1
    AND E.DuplicateKey2=cte.DuplicateKey2
ORDER BY E.DuplicateKey1, E.DuplicateKey2, CreatedAt

http://developer.azurewebsites.net/2014/09/better-sql-group-by-find-duplicate-data/

4
Lauri Lubi
SELECT * FROM users u where rowid = (select max(rowid) from users u1 where
u.email=u1.email);
4
Panky031

SELECT column_name,COUNT(*) FROM TABLE_NAME GROUP BY column1, HAVING COUNT(*) > 1;

1
rahul kumar

テーブル内の重複レコードからチェックする。

select * from users s 
where rowid < any 
(select rowid from users k where s.name = k.name and s.email = k.email);

または

select * from users s 
where rowid not in 
(select max(rowid) from users k where s.name = k.name and s.email = k.email);

テーブル内の重複レコードを削除する。

delete from users s 
where rowid < any 
(select rowid from users k where s.name = k.name and s.email = k.email);

または

delete from users s 
where rowid not in 
(select max(rowid) from users k where s.name = k.name and s.email = k.email);
0
Arun Solomon

以下に示すように、ここで集約関数に作用するものを使用することができます。

create table #TableB (id_account int, data int, [date] date)
insert into #TableB values (1 ,-50, '10/20/2018'),
(1, 20, '10/09/2018'),
(2 ,-900, '10/01/2018'),
(1 ,20, '09/25/2018'),
(1 ,-100, '08/01/2018')  

SELECT id_account , data, COUNT(*)
FROM #TableB
GROUP BY id_account , data
HAVING COUNT(id_account) > 1

drop table #TableB

ここでは2つのフィールドとして、id_accountとdataがCount(*)で使用されています。そのため、両方の列に同じ値が複数あるレコードすべてが表示されます。

SQLサーバーのテーブルに制約を追加しなかったため、フロントエンドアプリケーションでレコードがすべての列に重複して挿入されていました。その後、テーブルから重複したクエリを削除するために以下のクエリを使用できます。

SELECT DISTINCT * INTO #TemNewTable FROM #OriginalTable
TRUNCATE TABLE #OriginalTable
INSERT INTO #OriginalTable SELECT * FROM #TemNewTable
DROP TABLE #TemNewTable

ここで、元のテーブルのすべての異なるレコードを取得し、元のテーブルのレコードを削除しました。またしても、新しいテーブルから元のテーブルにすべての異なる値を挿入してから、新しいテーブルを削除しました。

0
Suraj Kumar

SELECT DISTINCTキーワードを使用して、重複を取り除くことができます。名前でフィルタリングして、その名前の人全員をテーブルに表示することもできます。

0
Parkofadown

これを試してみてください

SELECT NAME, EMAIL, COUNT(*)
FROM USERS
GROUP BY 1,2
HAVING COUNT(*) > 1
0
adesh

名前が重複するレコードを削除するには

;WITH CTE AS    
(

    SELECT ROW_NUMBER() OVER (PARTITION BY name ORDER BY name) AS T FROM     @YourTable    
)

DELETE FROM CTE WHERE T > 1
0
Sheriff