繰り返しますが、numpyの可変サイズのチャンクで

Aug 20 2020

さまざまなチャンクを連結した配列があります。

a = np.array([0, 1, 2, 10, 11, 20, 21, 22, 23])
#             >     <  >    <  >            <
chunks = np.array([3, 2, 4])
repeats = np.array([1, 3, 2])

上記の例の新しい10年で始まる各セグメントは、繰り返したい個別の「チャンク」です。チャンクのサイズと繰り返しの数は、それぞれについてわかっています。チャンクのサイズが異なるため、kronまたはそれに続く形状変更を行うことはできませんrepeat。

私が望む結果は

np.array([0, 1, 2, 10, 11, 10, 11, 10, 11, 20, 21, 22, 23, 20, 21, 22, 23])
# repeats:>  1  <  >         3          <  >              2             <

これはループで簡単に実行できます。

in_offset = np.r_[0, np.cumsum(chunks[:-1])]
out_offset = np.r_[0, np.cumsum(chunks[:-1] * repeats[:-1])]
output = np.zeros((chunks * repeats).sum(), dtype=a.dtype)
for c in range(len(chunks)):
    for r in range(repeats[c]):
        for i in range(chunks[c]):
            output[out_offset[c] + r * chunks[c] + i] = a[in_offset[c] + i]

これにより、次のベクトル化が行われます。

regions = chunks * repeats
index = np.arange(regions.sum())

segments = np.repeat(chunks, repeats)
resets = np.cumsum(segments[:-1])
offsets = np.zeros_like(index)
offsets[resets] = segments[:-1]
offsets[np.cumsum(regions[:-1])] -= chunks[:-1]

index -= np.cumsum(offsets)

output = a[index]

この問題をベクトル化するためのより効率的な方法はありますか？明確にするために、私はコードレビューを求めていません。これらの関数呼び出しがどのように連携するかに満足しています。同じ結果を達成するために使用できる関数呼び出しのまったく異なる（より効率的な）組み合わせがあるかどうかを知りたいです。

この質問は、この質問に対する私の答えに触発されました。

回答

1 AkshaySehgal Aug 20 2020 at 20:29

他の答えよりもこれを解決するさらに「numpythonic」な方法は-

np.concatenate(np.repeat(np.split(a, np.cumsum(chunks))[:-1], repeats))

array([ 0,  1,  2, 10, 11, 10, 11, 10, 11, 20, 21, 22, 23, 20, 21, 22, 23])

明示的なforループがないことに注意してください。

（np.split@Divakarによって指摘されているように暗黙のループがあります）。

編集：ベンチマーク（MacBook pro 13）-

@Mad Physicistが彼の投稿で指摘したように、Divakarのソリューションは、より大きな配列、チャンク、および繰り返しに対してより適切にスケーリングします。

1 Valdi_Bo Aug 20 2020 at 19:35

（他の答えよりも）あなたのタスクを実行するためのより多くのnumpythonicな方法は次のとおりです：

result = np.concatenate([ np.tile(tbl, rpt) for tbl, rpt in
    zip(np.split(a, np.cumsum(chunks[:-1])), repeats) ])

結果は次のとおりです。

array([ 0,  1,  2, 10, 11, 10, 11, 10, 11, 20, 21, 22, 23, 20, 21, 22, 23])

1 Divakar Aug 20 2020 at 20:06

範囲配列であるこれらのチャンクの場合、入力配列を直接操作できるため、最後のインデックス作成ステップを回避でき、改善されるはずです-