4

公式の NVIDIA Multi-Process Server docsを一瞥すると、それがCUDA ストリームとどのように相互作用するかは不明です。

次に例を示します。

アプリ 0: カーネルを論理ストリーム 0 に発行します。

アプリ 1: カーネルを (独自の) 論理ストリーム 0 に発行します。

この場合、

1) MPS はこれらの CUDA 呼び出しをどのように「ハイジャック」しますか? アプリケーションごとに、どのストリームが使用され、どのカーネルがどのストリームにあるかを完全に把握していますか?

2) MPS は独自の 2 つのストリームを作成し、それぞれのカーネルを正しいストリームに配置しますか? それとも、MPS はストリーム以外のメカニズムを介してカーネルの同時実行を可能にする可能性がありますか?

それが役に立てば、MPS が Volta でどのように機能するかに興味がありますが、古いアーキテクチャに関する情報も高く評価されます。

4

1 に答える 1