Sélectionnez le nombre maximum de lignes de sous-groupes triés

Aug 18 2020

En utilisant PostgreSQL 11, j'ai une table contenant une entrée DAY et MONTH_TO_DAY pour chaque jour de chaque mois. Je souhaite sélectionner l'entrée MONTH_TO_DAY la plus récente pour chaque compte. Ma table est:

+------+------------+--------------+------------+--------------------------+
|id    |account     |code          |interval    |timestamp                 |
+------+------------+--------------+------------+--------------------------+
|387276|ALPBls6EsP  |52            |MONTH_TO_DAY|2020-09-01 01:05:00.000000|
|387275|ALPBls6EsP  |52            |DAY         |2020-09-01 01:05:00.000000|
|387272|YkON8lk8A8  |25            |MONTH_TO_DAY|2020-09-01 01:05:00.000000|
|387271|YkON8lk8A8  |25            |DAY         |2020-08-01 01:05:00.000000|
|387273|ALPBls6EsP  |32            |MONTH_TO_DAY|2020-08-31 01:05:00.000000|
|387274|ALPBls6EsP  |32            |DAY         |2020-08-31 01:05:00.000000|
|387272|ALPBls6EsP  |27            |MONTH_TO_DAY|2020-08-30 01:05:00.000000|
|387271|ALPBls6EsP  |27            |DAY         |2020-08-30 01:05:00.000000|
+------+------------+--------------+------------+--------------------------+

Si cela aide, les entrées sont toujours dans l'ordre décroissant dans le temps.

Dans une requête demandant tous les comptes, puisque le 31 est le dernier jour de 08 et le 1er est l'entrée la plus récente de 09, ma sortie attendue serait

+------+------------+--------------+------------+--------------------------+
|id    |account     |code          |interval    |timestamp                 |
+------+------------+--------------+------------+--------------------------+
|387276|ALPBls6EsP  |52            |MONTH_TO_DAY|2020-09-01 01:05:00.000000|
|387272|YkON8lk8A8  |25            |MONTH_TO_DAY|2020-09-01 01:05:00.000000|
|387273|ALPBls6EsP  |32            |MONTH_TO_DAY|2020-08-31 01:05:00.000000|
+------+------------+--------------+------------+--------------------------+

Je pensais que je voudrais regrouper les entrées par mois (tronquer le jj / hh / ss), puis sélectionner la ligne avec l'horodatage maximum dans chaque groupe. Je peux obtenir les bonnes lignes avec cela, mais je ne peux pas comprendre comment obtenir l'un des autres champs.

SELECT max(timestamp) 
FROM mytable 
GROUP BY date_trunc('month', mytable.timestamp);

J'ai aussi pensé que je pourrais utiliser distinct sur quelque chose comme ci-dessous, mais je ne suis pas trop familier avec distinct on ou date_trunc et je ne peux pas comprendre comment les utiliser ensemble.

SELECT distinct on (timestamp)
    *
FROM mytable
ORDER BY date_trunc('month', mytable.timestamp)

Réponses

MikeOrganek Aug 18 2020 at 07:03

Vous voulez distinct on, mais vous voulez l'appliquer à account:

select distinct on (account) *
  from mytable
 where interval = 'MONTH_TO_DAY'
 order by account, timestamp desc;

Si vous voulez la dernière par d' accountici month, cela devrait fonctionner:

select distinct on (date_trunc('month', timestamp), account) *
  from mytable
 where interval = 'MONTH_TO_DAY'
 order by date_trunc('month', timestamp), account, timestamp desc;