python - numpy 配列を追加するときのオーバーフローを回避する

Question

datatyp uint8 で numpy 配列を追加したい。これらの配列の値は、オーバーフローが発生するのに十分な大きさである可能性があることを知っています。だから私は次のようなものを得る：

a = np.array([100, 200, 250], dtype=np.uint8)
b = np.array([50, 50, 50], dtype=np.uint8)
a += b

さて、 a は[150 250 44]です。ただし、オーバーフローの代わりに、uint8 に対して大きすぎる値を uint8 に許可される最大値にする必要があります。したがって、私の望ましい結果はになります[150 250 255]。

次のコードでこの結果を得ることができました。

a = np.array([100, 200, 250], dtype=np.uint8)
b = np.array([50, 50, 50], dtype=np.uint8)
c = np.zeros((1,3), dtype=np.uint16)
c += a
c += b
c[c>255] = 255
a = np.array(c, dtype=np.uint8)

問題は、配列が非常に大きいため、より大きなデータ型で 3 番目の配列を作成すると、メモリの問題が発生する可能性があることです。説明されている結果を達成するための高速でメモリ効率の高い方法はありますか?

score 8 · Accepted Answer

これは、dtype uint8 の 3 番目の配列と bool 配列を作成することで実現できます~~(これらを組み合わせると、1 つの uint16 配列よりもメモリ効率が高くなります)~~。

np.putmask一時配列を回避するのに役立ちます。

a = np.array([100, 200, 250], dtype=np.uint8)
b = np.array([50, 50, 50], dtype=np.uint8)
c = 255 - b  # a temp uint8 array here
np.putmask(a, c < a, c)  # a temp bool array here
a += b

ただし、@ moarningsun が正しく指摘しているように、bool 配列は uint8 配列と同じ量のメモリを使用するため、これは必ずしも役に立ちません。任意の時点で複数の一時配列を持たないようにすることで、これを解決できます。

a = np.array([100, 200, 250], dtype=np.uint8)
b = np.array([50, 50, 50], dtype=np.uint8)
b = 255 - b  # old b is gone shortly after new array is created
np.putmask(a, b < a, b)  # a temp bool array here, then it's gone
a += 255 - b  # a temp array here, then it's gone

このアプローチは、CPU とメモリ消費を交換します。

もう 1 つの方法は、考えられるすべての結果を事前に計算することです。これは、O(1) の余分なメモリです (つまり、配列のサイズに関係なく)。

c = np.clip(np.arange(256) + np.arange(256)[..., np.newaxis], 0, 255).astype(np.uint8)
c
=> array([[  0,   1,   2, ..., 253, 254, 255],
          [  1,   2,   3, ..., 254, 255, 255],
          [  2,   3,   4, ..., 255, 255, 255],
          ..., 
          [253, 254, 255, ..., 255, 255, 255],
          [254, 255, 255, ..., 255, 255, 255],
          [255, 255, 255, ..., 255, 255, 255]], dtype=uint8)

c[a,b]
=> array([150, 250, 255], dtype=uint8)

配列が非常に大きい場合は、この方法が最もメモリ効率が高くなります。繰り返しになりますが、超高速の整数加算を低速の 2dim-array インデックス付けに置き換えるため、処理時間が長くなります。

仕組みの説明

上記の配列の構築にはc、numpy ブロードキャストトリックが使用されます。(N,)形状の配列と形状(1,N)ブロードキャストの配列を追加すると、両方とものようになります(N,N)。したがって、結果はすべての可能な合計の NxN 配列になります。次に、クリップします。次を満たす 2dim 配列を取得しc[i,j]=min(i+j,255)ます。

残っているのは、適切な値を取得するために凝ったインデックスを使用することです。提供された入力を使用して、以下にアクセスします。

c[( [100, 200, 250] , [50, 50, 50] )]

最初のインデックス配列は 1 番目の次元を参照し、2 番目は 2 番目の次元を参照します。したがって、結果はインデックス配列 ( (N,)) と同じ形状の配列で、値で構成されます[ c[100,50] , c[200,50] , c[250,50] ]。

score 4 · Accepted Answer

ここに方法があります：

>>> a = np.array([100, 200, 250], dtype=np.uint8)
>>> b = np.array([50, 50, 50], dtype=np.uint8)
>>> a+=b; a[a<b]=255
>>> a
array([150, 250, 255], dtype=uint8)

score 4 · Accepted Answer

やってみたらどうですか

>>> a + np.minimum(255 - a, b)
array([150, 250, 255], dtype=uint8)

一般に、データ型の最大値を取得するには

np.iinfo(np.uint8).max

score 2 · Accepted Answer

たとえば、Numbaを使用して真にインプレースで実行できます。

import numba

@numba.jit('void(u1[:],u1[:])', locals={'temp': numba.uint16})
def add_uint8_inplace_clip(a, b):
    for i in range(a.shape[0]):
        temp = a[i] + b[i]
        a[i] = temp if temp<256 else 255

add_uint8_inplace_clip(a, b)

または、Numexpr を使用します。たとえば、次のようになります。

import numexpr

numexpr.evaluate('where((a+b)>255, 255, a+b)', out=a, casting='unsafe')

Numexprは、配列に戻す前に、内部的にアップキャスト uint8します。int32uint8

score 0 · Accepted Answer

これには numpy の関数があります:

numpy.nan_to_num(x)[source]

nan をゼロに、inf を有限数に置き換えます。

非数 (NaN) をゼロに、(正の) 無限大を非常に大きな数に、負の無限大を非常に小さな (または負の) 数に置き換えた配列またはスカラーを返します。

x と同じ形状の新しい配列と、x の要素の dtype が最大の精度で作成されます。

x が不正確な場合、NaN はゼロに置き換えられ、無限大 (-infinity) は出力 dtype に適合する最大 (最小または最も負の値) の浮動小数点値に置き換えられます。x が不正確でない場合、x のコピーが返されます。

出力に浮動小数点について言及されているため、uint8で動作するかどうかはわかりませんが、他の読者にとっては役立つかもしれません

python - numpy 配列を追加するときのオーバーフローを回避する

7 に答える 7

Related

Reference