いくつかのドキュメントのセットを持つコレクションがあるとします。このようなもの。
{ "_id" : ObjectId("4f127fa55e7242718200002d"), "id":1, "name" : "foo"}
{ "_id" : ObjectId("4f127fa55e7242718200002d"), "id":2, "name" : "bar"}
{ "_id" : ObjectId("4f127fa55e7242718200002d"), "id":3, "name" : "baz"}
{ "_id" : ObjectId("4f127fa55e7242718200002d"), "id":4, "name" : "foo"}
{ "_id" : ObjectId("4f127fa55e7242718200002d"), "id":5, "name" : "bar"}
{ "_id" : ObjectId("4f127fa55e7242718200002d"), "id":6, "name" : "bar"}
「名前」フィールドで、このコレクション内のすべての重複エントリを検索したい。例えば。 「foo」が2回、「bar」が3回表示されます。
注:このソリューションは最も簡単に理解できますが、最良ではありません。
mapReduce
を使用して、ドキュメントに特定のフィールドが含まれている回数を調べることができます。
var map = function(){
if(this.name) {
emit(this.name, 1);
}
}
var reduce = function(key, values){
return Array.sum(values);
}
var res = db.collection.mapReduce(map, reduce, {out:{ inline : 1}});
db[res.result].find({value: {$gt: 1}}).sort({value: -1});
受け入れられた答えは、大きなコレクションではひどく遅く、重複レコードの_id
sを返しません。
集約ははるかに高速で、_id
sを返すことができます。
db.collection.aggregate([
{ $group: {
_id: { name: "$name" }, // replace `name` here twice
uniqueIds: { $addToSet: "$_id" },
count: { $sum: 1 }
} },
{ $match: {
count: { $gte: 2 }
} },
{ $sort : { count : -1} },
{ $limit : 10 }
]);
集約パイプラインの最初の段階で、 $ group 演算子はname
フィールドによってドキュメントを集約し、グループ化されたuniqueIds
各_id
値に格納します記録。 $ sum 演算子は、渡されたフィールドの値、この場合は定数1
-を加算して、グループ化されたレコードの数をcount
フィールドにカウントします。
パイプラインの第2段階では、 $ match を使用して、少なくとも2のcount
を持つドキュメント、つまり重複をフィルタリングします。
次に、最も頻繁な複製を最初にソートし、結果を上位10に制限します。
このクエリは、$limit
とともに、重複した名前を持つ_id
レコードまで出力します。例えば:
{
"_id" : {
"name" : "Toothpick"
},
"uniqueIds" : [
"xzuzJd2qatfJCSvkN",
"9bpewBsKbrGBQexv4",
"fi3Gscg9M64BQdArv",
],
"count" : 3
},
{
"_id" : {
"name" : "Broom"
},
"uniqueIds" : [
"3vwny3YEj2qBsmmhA",
"gJeWGcuX6Wk69oFYD"
],
"count" : 2
}
Mongo labの公式ブログで役立つ情報を見つけました: http://blog.mongolab.com/2014/03/finding-duplicate-keys-with-the-mongodb-aggregation-framework/
ここで最も受け入れられている答えは次のとおりです。
uniqueIds: { $addToSet: "$_id" },
また、idのリストを持つuniqueIdsという新しいフィールドが返されます。しかし、フィールドとそのカウントだけが必要な場合はどうでしょうか?次に、これになります:
db.collection.aggregate([
{$group: { _id: {name: "$name"},
count: {$sum: 1} } },
{$match: { count: {"$gt": 1} } }
]);
これを説明するために、MySQLやPostgreSQLなどのSQLデータベースを使用している場合、GROUP BYステートメントで動作する集約関数(COUNT()、SUM()、MIN()、MAX()など)に慣れています。たとえば、列の値がテーブルに表示される合計カウントを見つけるには。
SELECT COUNT(*), my_type FROM table GROUP BY my_type;
+----------+-----------------+
| COUNT(*) | my_type |
+----------+-----------------+
| 3 | Contact |
| 1 | Practice |
| 1 | Prospect |
| 1 | Task |
+----------+-----------------+
ご覧のとおり、出力には各my_type値が表示されるカウントが表示されます。 MongoDBで重複を見つけるには、同様の方法で問題に取り組みます。 MongoDBは、複数のドキュメントの値をグループ化する集約操作を誇り、グループ化されたデータに対してさまざまな操作を実行して、単一の結果を返すことができます。 SQLの関数を集約するのと同様の概念です。
連絡先と呼ばれるコレクションを想定すると、初期設定は次のようになります。
db.contacts.aggregate([ ... ]);
この集計関数は、集計演算子の配列を使用します。この場合、フィールドのカウント、つまりフィールド値の出現回数でデータをグループ化することが目標なので、$ group演算子が必要です。
db.contacts.aggregate([
{$group: {
_id: {name: "$name"}
}
}
]);
このアプローチには少し特異性があります。 group by演算子を使用するには、_idフィールドが必要です。この場合、$ nameフィールドをグループ化しています。 _id内のキー名には任意の名前を付けることができます。ただし、ここでは直感的であるため、名前を使用します。
$ group演算子のみを使用して集計を実行することにより、すべての名前フィールドのリストを取得します(コレクションに1回以上表示されるかどうかに関係なく)。
db.contacts.aggregate([
{$group: {
_id: {name: "$name"}
}
}
]);
{ "_id" : { "name" : "John" } }
{ "_id" : { "name" : "Joan" } }
{ "_id" : { "name" : "Stephen" } }
{ "_id" : { "name" : "Rod" } }
{ "_id" : { "name" : "Albert" } }
{ "_id" : { "name" : "Amanda" } }
上記の集約の仕組みに注意してください。名前フィールドを持つドキュメントを取得し、抽出された名前フィールドの新しいコレクションを返します。
しかし、私たちが知りたいのは、フィールド値が何回再表示されるかです。 $ group演算子は、$ sum演算子を使用して、グループ内の各ドキュメントの合計に式1を追加するcountフィールドを取ります。したがって、$ groupと$ sumは一緒に、指定されたフィールド(たとえば、名前)に結果として生じるすべての数値の集合和を返します。
db.contacts.aggregate([
{$group: {
_id: {name: "$name"},
count: {$sum: 1}
}
}
]);
{ "_id" : { "name" : "John" }, "count" : 1 }
{ "_id" : { "name" : "Joan" }, "count" : 3 }
{ "_id" : { "name" : "Stephen" }, "count" : 2 }
{ "_id" : { "name" : "Rod" }, "count" : 3 }
{ "_id" : { "name" : "Albert" }, "count" : 2 }
{ "_id" : { "name" : "Amanda" }, "count" : 1 }
目標は重複を排除することであったため、1つの追加手順が必要です。複数のカウントを持つグループのみを取得するには、$ match演算子を使用して結果をフィルター処理できます。 $ match演算子内で、カウントフィールドを見て、「より大きい」と数値1を表す$ gt演算子を使用して、1より大きいカウントを探すように指示します。
db.contacts.aggregate([
{$group: { _id: {name: "$name"},
count: {$sum: 1} } },
{$match: { count: {"$gt": 1} } }
]);
{ "_id" : { "name" : "Joan" }, "count" : 3 }
{ "_id" : { "name" : "Stephen" }, "count" : 2 }
{ "_id" : { "name" : "Rod" }, "count" : 3 }
{ "_id" : { "name" : "Albert" }, "count" : 2 }
サイドノートとして、RubyのMongoidのようなORMを介してMongoDBを使用している場合、このエラーが発生する可能性があります。
The 'cursor' option is required, except for aggregate with the explain argument
これはおそらく、ORMが古く、MongoDBでサポートされなくなった操作を実行していることを意味します。その結果、ORMを更新するか、修正を見つけてください。 Mongoidにとって、これは私にとっての修正でした。
module Moped
class Collection
# Mongo 3.6 requires a `cursor` option be passed as part of aggregate queries. This overrides
# `Moped::Collection#aggregate` to include a cursor, which is not provided by Moped otherwise.
#
# Per the [MongoDB documentation](https://docs.mongodb.com/manual/reference/command/aggregate/):
#
# Changed in version 3.6: MongoDB 3.6 removes the use of `aggregate` command *without* the `cursor` option unless
# the command includes the `explain` option. Unless you include the `explain` option, you must specify the
# `cursor` option.
#
# To indicate a cursor with the default batch size, specify `cursor: {}`.
#
# To indicate a cursor with a non-default batch size, use `cursor: { batchSize: <num> }`.
#
def aggregate(*pipeline)
# Ordering of keys apparently matters to Mongo -- `aggregate` has to come before `cursor` here.
extract_result(session.command(aggregate: name, pipeline: pipeline.flatten, cursor: {}))
end
private
def extract_result(response)
response.key?("cursor") ? response["cursor"]["firstBatch"] : response["result"]
end
end
end