MongoDB - Агрегация
Операции агрегирования обрабатывают записи данных и возвращают вычисленные результаты. Операции агрегирования группируют значения из нескольких документов вместе и могут выполнять различные операции с сгруппированными данными для возврата одного результата. В SQL count (*) и с group by эквивалентно агрегации MongoDB.
Метод aggregate ()
Для агрегации в MongoDB вы должны использовать aggregate() метод.
Синтаксис
Базовый синтаксис aggregate() метод выглядит следующим образом -
>db.COLLECTION_NAME.aggregate(AGGREGATE_OPERATION)
пример
В коллекции у вас есть следующие данные -
{
_id: ObjectId(7df78ad8902c)
title: 'MongoDB Overview',
description: 'MongoDB is no sql database',
by_user: 'tutorials point',
url: 'http://www.tutorialspoint.com',
tags: ['mongodb', 'database', 'NoSQL'],
likes: 100
},
{
_id: ObjectId(7df78ad8902d)
title: 'NoSQL Overview',
description: 'No sql database is very fast',
by_user: 'tutorials point',
url: 'http://www.tutorialspoint.com',
tags: ['mongodb', 'database', 'NoSQL'],
likes: 10
},
{
_id: ObjectId(7df78ad8902e)
title: 'Neo4j Overview',
description: 'Neo4j is no sql database',
by_user: 'Neo4j',
url: 'http://www.neo4j.com',
tags: ['neo4j', 'database', 'NoSQL'],
likes: 750
},
Теперь из приведенной выше коллекции, если вы хотите отобразить список, в котором указано, сколько руководств написано каждым пользователем, вы будете использовать следующие aggregate() метод -
> db.mycol.aggregate([{$group : {_id : "$by_user", num_tutorial : {$sum : 1}}}])
{ "_id" : "tutorials point", "num_tutorial" : 2 }
{ "_id" : "Neo4j", "num_tutorial" : 1 }
>
Эквивалентный запрос sql для вышеуказанного варианта использования будет select by_user, count(*) from mycol group by by_user.
В приведенном выше примере мы сгруппировали документы по полю by_userи при каждом появлении пользователем предыдущего значения суммы увеличивается. Ниже приведен список доступных выражений агрегирования.
Выражение | Описание | пример |
---|---|---|
$ сумма | Суммирует определенное значение из всех документов в коллекции. | db.mycol.aggregate ([{$ group: {_id: "$ by_user", num_tutorial: {$ sum: "$ like"}}}]) |
в среднем | Вычисляет среднее значение всех заданных значений для всех документов в коллекции. | db.mycol.aggregate ([{$ group: {_id: "$ by_user", num_tutorial: {$ avg: "$ like"}}}]) |
$ мин | Получает минимум соответствующих значений из всех документов в коллекции. | db.mycol.aggregate ([{$ group: {_id: "$ by_user", num_tutorial: {$ min: "$ like"}}}]) |
$ макс | Получает максимум соответствующих значений из всех документов в коллекции. | db.mycol.aggregate ([{$ group: {_id: "$ by_user", num_tutorial: {$ max: "$ like"}}}]) |
$ push | Вставляет значение в массив в результирующий документ. | db.mycol.aggregate ([{$ group: {_id: "$ by_user", url: {$ push: "$ url"}}}]) |
$ addToSet | Вставляет значение в массив в итоговом документе, но не создает дубликатов. | db.mycol.aggregate ([{$ group: {_id: "$ by_user", url: {$ addToSet: "$ url"}}}]) |
$ первый | Получает первый документ из исходных документов в соответствии с группировкой. Обычно это имеет смысл только вместе с некоторым ранее примененным этапом «$ sort». | db.mycol.aggregate ([{$ group: {_id: "$ by_user", first_url: {$ first: "$ url"}}}]) |
$ последний | Получает последний документ из исходных документов в соответствии с группировкой. Обычно это имеет смысл только вместе с некоторым ранее примененным этапом «$ sort». | db.mycol.aggregate ([{$ group: {_id: "$ by_user", last_url: {$ last: "$ url"}}}]) |
Концепция трубопровода
В команде UNIX конвейер оболочки означает возможность выполнить операцию над некоторым вводом и использовать вывод как ввод для следующей команды и так далее. MongoDB также поддерживает ту же концепцию в структуре агрегирования. Существует набор возможных этапов, и каждый из них воспринимается как набор документов в качестве входных и создает результирующий набор документов (или окончательный результирующий документ JSON в конце конвейера). Это, в свою очередь, может быть использовано на следующем этапе и так далее.
Ниже приведены возможные этапы в структуре агрегирования.
$project - Используется для выбора определенных полей из коллекции.
$match - Это операция фильтрации, и, таким образом, это может уменьшить количество документов, которые вводятся на следующем этапе.
$group - Это фактическое агрегирование, как описано выше.
$sort - Сортировка документов.
$skip - При этом можно перейти вперед в списке документов для заданного количества документов.
$limit - Это ограничивает количество документов для просмотра заданным числом, начиная с текущих позиций.
$unwind- Используется для раскрутки документа, использующего массивы. При использовании массива данные предварительно объединяются, и эта операция будет отменена, чтобы снова получить отдельные документы. Таким образом, с этим этапом мы увеличим количество документов для следующего этапа.