Повторите, но в кусках переменного размера в numpy

Aug 20 2020

У меня есть массив, который представляет собой объединение разных кусков:

a = np.array([0, 1, 2, 10, 11, 20, 21, 22, 23])
#             >     <  >    <  >            <
chunks = np.array([3, 2, 4])
repeats = np.array([1, 3, 2])

Каждый сегмент, начинающийся с нового десятилетия в приведенном выше примере, представляет собой отдельный «кусок», который я хотел бы повторить. Для каждого известны размеры блоков и количество повторений. Я не могу изменить форму с последующим kronили repeatпотому что куски имеют разные размеры.

Я хотел бы получить результат

np.array([0, 1, 2, 10, 11, 10, 11, 10, 11, 20, 21, 22, 23, 20, 21, 22, 23])
# repeats:>  1  <  >         3          <  >              2             <

Это легко сделать в цикле:

in_offset = np.r_[0, np.cumsum(chunks[:-1])]
out_offset = np.r_[0, np.cumsum(chunks[:-1] * repeats[:-1])]
output = np.zeros((chunks * repeats).sum(), dtype=a.dtype)
for c in range(len(chunks)):
    for r in range(repeats[c]):
        for i in range(chunks[c]):
            output[out_offset[c] + r * chunks[c] + i] = a[in_offset[c] + i]

Это приводит к следующей векторизации:

regions = chunks * repeats
index = np.arange(regions.sum())

segments = np.repeat(chunks, repeats)
resets = np.cumsum(segments[:-1])
offsets = np.zeros_like(index)
offsets[resets] = segments[:-1]
offsets[np.cumsum(regions[:-1])] -= chunks[:-1]

index -= np.cumsum(offsets)

output = a[index]

Есть ли более эффективный способ векторизации этой проблемы? Для ясности, я не прошу проверки кода. Я доволен тем, как эти вызовы функций работают вместе. Я хотел бы знать, есть ли совершенно другая (более эффективная) комбинация вызовов функций, которую я мог бы использовать для достижения того же результата.

Этот вопрос был вызван моим ответом на этот вопрос .

Ответы

1 AkshaySehgal Aug 20 2020 at 20:29

Еще более " numpythonic " способ решить эту проблему, чем другой ответ -

np.concatenate(np.repeat(np.split(a, np.cumsum(chunks))[:-1], repeats))

array([ 0,  1,  2, 10, 11, 10, 11, 10, 11, 20, 21, 22, 23, 20, 21, 22, 23])

Обратите внимание, никаких явных циклов for.

( np.splitимеет неявный цикл, как указано @Divakar).

РЕДАКТИРОВАТЬ: тесты (MacBook pro 13) -

Решение Divakar лучше масштабируется для больших массивов, фрагментов и повторов, как указал @Mad Physicist в своем сообщении.

1 Valdi_Bo Aug 20 2020 at 19:35

Более простой способ выполнить вашу задачу (чем другой ответ):

result = np.concatenate([ np.tile(tbl, rpt) for tbl, rpt in
    zip(np.split(a, np.cumsum(chunks[:-1])), repeats) ])

Результат:

array([ 0,  1,  2, 10, 11, 10, 11, 10, 11, 20, 21, 22, 23, 20, 21, 22, 23])

1 Divakar Aug 20 2020 at 20:06

Для тех фрагментов, которые являются массивами диапазонов, мы можем напрямую работать с входным массивом и, таким образом, избежать последнего шага индексации, и это должно улучшить ситуацию -