問題タブ [numba-pro]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - numbapro cuda による 1 次元 fftconvolve
イメージとカーネルで fftconvolve を実行するために指定された例 ( https://github.com/ContinuumIO/numbapro-examples/blob/master/convolution/fftconvolve.py ) に従っています。どちらも 2D 配列です。私の使用例では、2 つの 1D 配列で fftconvolve を実行して、可能な一致と遅延を探したいと考えています。この例を 1D に変換しようとしましたが、いくつかInvalid type combination
エラーが発生しました。numbapro を介して CUDA を使用して 1 次元配列 fftconvolve に従うより良い例はありますか? ありがとう
python - GPU で計算すると間違った結果になる (python3.5+numba+CUDA8.0)
配列のさまざまな部分の合計を取得したい。コードを実行します。印刷されたものから2つの問題を見つけます。
プロ1:
ここで詳しく説明します。解決しました。多分それは本当の問題ではありません。
プロ2:
私のコードでは、sbuf[0,2]、sbuf[1,2]、sbuf[2,2] と sbuf[0,3]、sbuf[1,3]、sbuf[2,3] に異なる値を与えました。 .
しかし、その後cuda.syncthreads()
、sbuf[0,2] と sbuf[0,3]、sbuf[1,2] と sbuf[1,3]、sbuf[2,2] と sbuf[2,3] の間で値が同じになったことがわかります。 ]。
これは、Xi_s、Xi1_s、および Yi_s の値が正しくないことに直接つながります。
これらは、カーネル内に出力された内容による私の推測です。
@talonmies は、このようなカーネル内の print ステートメントに依存することは危険であると述べました。
したがって、カーネル内でステートメントを出力する代わりに、コードをデバッグする便利な方法があるかどうかを知りたいです。