問題タブ [numba-pro]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
181 参照

python - numbapro cuda による 1 次元 fftconvolve

イメージとカーネルで fftconvolve を実行するために指定された例 ( https://github.com/ContinuumIO/numbapro-examples/blob/master/convolution/fftconvolve.py ) に従っています。どちらも 2D 配列です。私の使用例では、2 つの 1D 配列で fftconvolve を実行して、可能な一致と遅延を探したいと考えています。この例を 1D に変換しようとしましたが、いくつかInvalid type combinationエラーが発生しました。numbapro を介して CUDA を使用して 1 次元配列 fftconvolve に従うより良い例はありますか? ありがとう

0 投票する
1 に答える
112 参照

python - GPU で計算すると間違った結果になる (python3.5+numba+CUDA8.0)

配列のさまざまな部分の合計を取得したい。コードを実行します。印刷されたものから2つの問題を見つけます。

プロ1:

ここで詳しく説明します。解決しました。多分それは本当の問題ではありません。

プロ2:

私のコードでは、sbuf[0,2]、sbuf[1,2]、sbuf[2,2] と sbuf[0,3]、sbuf[1,3]、sbuf[2,3] に異なる値を与えました。 .

しかし、その後cuda.syncthreads()、sbuf[0,2] と sbuf[0,3]、sbuf[1,2] と sbuf[1,3]、sbuf[2,2] と sbuf[2,3] の間で値が同じになったことがわかります。 ]。

これは、Xi_s、Xi1_s、および Yi_s の値が正しくないことに直接つながります。

これらは、カーネル内に出力された内容による私の推測です。

@talonmies は、このようなカーネル内の print ステートメントに依存することは危険であると述べました。

したがって、カーネル内でステートメントを出力する代わりに、コードをデバッグする便利な方法があるかどうかを知りたいです。