Cusparseを使ってAX=Bを1440回解いています(Aは修正中、対角要素のみ、Bも違う)。ハンドルと分析オブジェクトを一度だけ作成しています。
私は cusparseScrsilu0() を使用しています。
ストリームを使用してこの操作を実行したい。1 つのハンドルを使用して複数のストリームを作成してこれを試しましたが、速度が向上しませんでした。
この問題から私を助けてください。
Cusparseを使ってAX=Bを1440回解いています(Aは修正中、対角要素のみ、Bも違う)。ハンドルと分析オブジェクトを一度だけ作成しています。
私は cusparseScrsilu0() を使用しています。
ストリームを使用してこの操作を実行したい。1 つのハンドルを使用して複数のストリームを作成してこれを試しましたが、速度が向上しませんでした。
この問題から私を助けてください。
マルチストリーム設計により、CUDA カーネルを同時に実行できることが期待されます。ただし、マルチストリームが常に同時カーネル実行につながるとは限りません。カーネルは、特定の事前要求を満たす場合にのみ、同時に実行できます。最も重要な条件の 1 つは、各カーネルがハードウェア リソース (SM、テクスチャ、ローカル メモリなど) のごく一部しか占有していないことです。したがって、問題のサイズが十分に大きい場合、別のカーネルを同時に実行するための余分なリソースはありません。