MongoDB - Агрегация

Операции агрегирования обрабатывают записи данных и возвращают вычисленные результаты. Операции агрегирования группируют значения из нескольких документов вместе и могут выполнять различные операции с сгруппированными данными для возврата одного результата. В SQL count (*) и с group by эквивалентно агрегации MongoDB.

Метод aggregate ()

Для агрегации в MongoDB вы должны использовать aggregate() метод.

Синтаксис

Базовый синтаксис aggregate() метод выглядит следующим образом -

>db.COLLECTION_NAME.aggregate(AGGREGATE_OPERATION)

пример

В коллекции у вас есть следующие данные -

{
   _id: ObjectId(7df78ad8902c)
   title: 'MongoDB Overview', 
   description: 'MongoDB is no sql database',
   by_user: 'tutorials point',
   url: 'http://www.tutorialspoint.com',
   tags: ['mongodb', 'database', 'NoSQL'],
   likes: 100
},
{
   _id: ObjectId(7df78ad8902d)
   title: 'NoSQL Overview', 
   description: 'No sql database is very fast',
   by_user: 'tutorials point',
   url: 'http://www.tutorialspoint.com',
   tags: ['mongodb', 'database', 'NoSQL'],
   likes: 10
},
{
   _id: ObjectId(7df78ad8902e)
   title: 'Neo4j Overview', 
   description: 'Neo4j is no sql database',
   by_user: 'Neo4j',
   url: 'http://www.neo4j.com',
   tags: ['neo4j', 'database', 'NoSQL'],
   likes: 750
},

Теперь из приведенной выше коллекции, если вы хотите отобразить список, в котором указано, сколько руководств написано каждым пользователем, вы будете использовать следующие aggregate() метод -

> db.mycol.aggregate([{$group : {_id : "$by_user", num_tutorial : {$sum : 1}}}])
{ "_id" : "tutorials point", "num_tutorial" : 2 }
{ "_id" : "Neo4j", "num_tutorial" : 1 }
>

Эквивалентный запрос sql для вышеуказанного варианта использования будет select by_user, count(*) from mycol group by by_user.

В приведенном выше примере мы сгруппировали документы по полю by_userи при каждом появлении пользователем предыдущего значения суммы увеличивается. Ниже приведен список доступных выражений агрегирования.

Выражение Описание пример
$ сумма Суммирует определенное значение из всех документов в коллекции. db.mycol.aggregate ([{$ group: {_id: "$ by_user", num_tutorial: {$ sum: "$ like"}}}])
в среднем Вычисляет среднее значение всех заданных значений для всех документов в коллекции. db.mycol.aggregate ([{$ group: {_id: "$ by_user", num_tutorial: {$ avg: "$ like"}}}])
$ мин Получает минимум соответствующих значений из всех документов в коллекции. db.mycol.aggregate ([{$ group: {_id: "$ by_user", num_tutorial: {$ min: "$ like"}}}])
$ макс Получает максимум соответствующих значений из всех документов в коллекции. db.mycol.aggregate ([{$ group: {_id: "$ by_user", num_tutorial: {$ max: "$ like"}}}])
$ push Вставляет значение в массив в результирующий документ. db.mycol.aggregate ([{$ group: {_id: "$ by_user", url: {$ push: "$ url"}}}])
$ addToSet Вставляет значение в массив в итоговом документе, но не создает дубликатов. db.mycol.aggregate ([{$ group: {_id: "$ by_user", url: {$ addToSet: "$ url"}}}])
$ первый Получает первый документ из исходных документов в соответствии с группировкой. Обычно это имеет смысл только вместе с некоторым ранее примененным этапом «$ sort». db.mycol.aggregate ([{$ group: {_id: "$ by_user", first_url: {$ first: "$ url"}}}])
$ последний Получает последний документ из исходных документов в соответствии с группировкой. Обычно это имеет смысл только вместе с некоторым ранее примененным этапом «$ sort». db.mycol.aggregate ([{$ group: {_id: "$ by_user", last_url: {$ last: "$ url"}}}])

Концепция трубопровода

В команде UNIX конвейер оболочки означает возможность выполнить операцию над некоторым вводом и использовать вывод как ввод для следующей команды и так далее. MongoDB также поддерживает ту же концепцию в структуре агрегирования. Существует набор возможных этапов, и каждый из них воспринимается как набор документов в качестве входных и создает результирующий набор документов (или окончательный результирующий документ JSON в конце конвейера). Это, в свою очередь, может быть использовано на следующем этапе и так далее.

Ниже приведены возможные этапы в структуре агрегирования.

  • $project - Используется для выбора определенных полей из коллекции.

  • $match - Это операция фильтрации, и, таким образом, это может уменьшить количество документов, которые вводятся на следующем этапе.

  • $group - Это фактическое агрегирование, как описано выше.

  • $sort - Сортировка документов.

  • $skip - При этом можно перейти вперед в списке документов для заданного количества документов.

  • $limit - Это ограничивает количество документов для просмотра заданным числом, начиная с текущих позиций.

  • $unwind- Используется для раскрутки документа, использующего массивы. При использовании массива данные предварительно объединяются, и эта операция будет отменена, чтобы снова получить отдельные документы. Таким образом, с этим этапом мы увеличим количество документов для следующего этапа.