Ulangi tetapi dalam potongan berukuran variabel di numpy

Aug 20 2020

Saya memiliki sebuah array yang merupakan rangkaian dari potongan-potongan yang berbeda:

a = np.array([0, 1, 2, 10, 11, 20, 21, 22, 23])
#             >     <  >    <  >            <
chunks = np.array([3, 2, 4])
repeats = np.array([1, 3, 2])

Setiap segmen yang dimulai dengan dekade baru pada contoh di atas adalah "bagian" terpisah yang ingin saya ulangi. Ukuran potongan dan jumlah pengulangan diketahui untuk masing-masing. Saya tidak dapat melakukan pembentukan ulang diikuti oleh kronatau repeatkarena potongannya memiliki ukuran yang berbeda.

Hasil yang saya inginkan adalah

np.array([0, 1, 2, 10, 11, 10, 11, 10, 11, 20, 21, 22, 23, 20, 21, 22, 23])
# repeats:>  1  <  >         3          <  >              2             <

Ini mudah dilakukan dalam satu putaran:

in_offset = np.r_[0, np.cumsum(chunks[:-1])]
out_offset = np.r_[0, np.cumsum(chunks[:-1] * repeats[:-1])]
output = np.zeros((chunks * repeats).sum(), dtype=a.dtype)
for c in range(len(chunks)):
    for r in range(repeats[c]):
        for i in range(chunks[c]):
            output[out_offset[c] + r * chunks[c] + i] = a[in_offset[c] + i]

Ini mengarah pada vektorisasi berikut:

regions = chunks * repeats
index = np.arange(regions.sum())

segments = np.repeat(chunks, repeats)
resets = np.cumsum(segments[:-1])
offsets = np.zeros_like(index)
offsets[resets] = segments[:-1]
offsets[np.cumsum(regions[:-1])] -= chunks[:-1]

index -= np.cumsum(offsets)

output = a[index]

Apakah ada cara yang lebih efisien untuk melakukan vektorisasi masalah ini? Supaya kami jelas, saya tidak meminta tinjauan kode. Saya senang dengan bagaimana pemanggilan fungsi ini bekerja bersama. Saya ingin tahu apakah ada kombinasi panggilan fungsi yang sama sekali berbeda (lebih efisien) yang dapat saya gunakan untuk mencapai hasil yang sama.

Pertanyaan ini terinspirasi oleh jawaban saya untuk pertanyaan ini .

Jawaban

1 AkshaySehgal Aug 20 2020 at 20:29

Cara yang lebih " numpythonic " untuk menyelesaikan ini daripada jawaban lainnya adalah -

np.concatenate(np.repeat(np.split(a, np.cumsum(chunks))[:-1], repeats))

array([ 0,  1,  2, 10, 11, 10, 11, 10, 11, 20, 21, 22, 23, 20, 21, 22, 23])

Perhatikan, tidak ada for-loop yang eksplisit.

( np.splitmemiliki loop implisit seperti yang ditunjukkan oleh @Divakar).

EDIT: Benchmark (MacBook pro 13) -

Solusi Divakar berskala lebih baik untuk larik, potongan, dan pengulangan yang lebih besar seperti yang ditunjukkan @Mad Physicist di posnya.

1 Valdi_Bo Aug 20 2020 at 19:35

Cara yang lebih numpit untuk melakukan tugas Anda (daripada jawaban lainnya) adalah:

result = np.concatenate([ np.tile(tbl, rpt) for tbl, rpt in
    zip(np.split(a, np.cumsum(chunks[:-1])), repeats) ])

Hasilnya adalah:

array([ 0,  1,  2, 10, 11, 10, 11, 10, 11, 20, 21, 22, 23, 20, 21, 22, 23])

1 Divakar Aug 20 2020 at 20:06

Untuk potongan-potongan itu adalah array jangkauan, kita dapat langsung bekerja pada array input dan dengan demikian menghindari langkah pengindeksan terakhir dan itu akan meningkatkan segalanya -