Répéter mais en morceaux de taille variable dans numpy

Aug 20 2020

J'ai un tableau qui est la concaténation de différents morceaux:

a = np.array([0, 1, 2, 10, 11, 20, 21, 22, 23])
#             >     <  >    <  >            <
chunks = np.array([3, 2, 4])
repeats = np.array([1, 3, 2])

Chaque segment commençant par une nouvelle décennie dans l'exemple ci-dessus est un «morceau» distinct que je voudrais répéter. La taille des morceaux et le nombre de répétitions sont connus pour chacun. Je ne peux pas faire de remodelage suivi de kronou repeatparce que les morceaux sont de tailles différentes.

Le résultat que je voudrais est

np.array([0, 1, 2, 10, 11, 10, 11, 10, 11, 20, 21, 22, 23, 20, 21, 22, 23])
# repeats:>  1  <  >         3          <  >              2             <

C'est facile à faire en boucle:

in_offset = np.r_[0, np.cumsum(chunks[:-1])]
out_offset = np.r_[0, np.cumsum(chunks[:-1] * repeats[:-1])]
output = np.zeros((chunks * repeats).sum(), dtype=a.dtype)
for c in range(len(chunks)):
    for r in range(repeats[c]):
        for i in range(chunks[c]):
            output[out_offset[c] + r * chunks[c] + i] = a[in_offset[c] + i]

Cela conduit à la vectorisation suivante:

regions = chunks * repeats
index = np.arange(regions.sum())

segments = np.repeat(chunks, repeats)
resets = np.cumsum(segments[:-1])
offsets = np.zeros_like(index)
offsets[resets] = segments[:-1]
offsets[np.cumsum(regions[:-1])] -= chunks[:-1]

index -= np.cumsum(offsets)

output = a[index]

Existe-t-il un moyen plus efficace de vectoriser ce problème? Pour être clair, je ne demande pas de révision de code. Je suis satisfait de la façon dont ces appels de fonction fonctionnent ensemble. Je voudrais savoir s'il existe une combinaison d'appels de fonction entièrement différente (plus efficace) que je pourrais utiliser pour obtenir le même résultat.

Cette question a été inspirée par ma réponse à cette question .

Réponses

1 AkshaySehgal Aug 20 2020 at 20:29

Une manière encore plus " numpythonique " de résoudre ce problème que l'autre réponse est -

np.concatenate(np.repeat(np.split(a, np.cumsum(chunks))[:-1], repeats))

array([ 0,  1,  2, 10, 11, 10, 11, 10, 11, 20, 21, 22, 23, 20, 21, 22, 23])

Remarquez, pas de boucles for explicites.

( np.splita une boucle implicite comme indiqué par @Divakar).

EDIT: Benchmarks (MacBook pro 13) -

La solution de Divakar s'adapte mieux aux tableaux plus grands, aux blocs et aux répétitions comme l'a souligné @Mad Physicist dans son article.

1 Valdi_Bo Aug 20 2020 at 19:35

Une manière plus numpythonique de faire votre tâche (que l'autre réponse) est:

result = np.concatenate([ np.tile(tbl, rpt) for tbl, rpt in
    zip(np.split(a, np.cumsum(chunks[:-1])), repeats) ])

Le résultat est:

array([ 0,  1,  2, 10, 11, 10, 11, 10, 11, 20, 21, 22, 23, 20, 21, 22, 23])

1 Divakar Aug 20 2020 at 20:06

Pour ces morceaux étant des tableaux de plage, nous pouvons travailler directement sur le tableau d'entrée et ainsi éviter l'étape finale d'indexation et cela devrait améliorer les choses -