CRS 行列とベクトル (SpMV) を乗算するアプリケーションは既に終了しています。あとは、アプリケーションが実行した FLOPS をカウントするだけです。私の意見では、スパース行列の場合の浮動小数点演算の数を見積もるのは本当に難しいです-ベクトル乗算。
「cudaprof」(./CUDA/binディレクトリで利用可能)を使用して時間を測定しようとしただけで、正常に動作します。
どんな提案や指示の貼り付けも大歓迎です!
それはあなたの意見だけではありません。疎行列の場合の操作の数がデータに依存することは単純な事実であるため、データについて何も知らずに合理的な答えを得ることができません。そのため、1 つの数値ですべてのデータに適合する推定値を取得することはできません。
これはおそらく、おそらく正確な推定を行うために何時間も懸命に考える (そして多くの調査を行う) ことができる状況の 1 つです。操作を行うたびにカウンター。確かに、実行にはかなりの時間がかかりますが (特に CUDA 対応のフォームで実行しない場合)、おそらく考えるよりもはるかに短い時間です。それが正しいと自分に納得させるために多くの努力をする必要はありません。