私の画像処理プロジェクトはグレースケール画像で動作します。ARM Cortex-A8 プロセッサ プラットフォームを使用しています。NEONを活用したい。
私はグレースケールの画像を持っています (以下の例を考えてください)。私のアルゴリズムでは、列のみを追加する必要があります。
4 つの 8 ビット ピクセル値( uint8_t ) を4 つの uint32_tとして128 ビット NEON レジスタの 1 つに並列にロードするにはどうすればよいですか? これを行うには、どの組み込み関数を使用する必要がありますか?
つまり:
よく見ると、255 + 255 を実行する瞬間は 512 であり、8 ビット レジスタに保持できないため、32 ビットとしてロードする必要があります。
例えば
255 255 255 255 ......... (640 pixels)
255 255 255 255
255 255 255 255
255 255 255 255
.
.
.
.
.
(480 pixels)