公式の NVIDIA Multi-Process Server docsを一瞥すると、それがCUDA ストリームとどのように相互作用するかは不明です。
次に例を示します。
アプリ 0: カーネルを論理ストリーム 0 に発行します。
アプリ 1: カーネルを (独自の) 論理ストリーム 0 に発行します。
この場合、
1) MPS はこれらの CUDA 呼び出しをどのように「ハイジャック」しますか? アプリケーションごとに、どのストリームが使用され、どのカーネルがどのストリームにあるかを完全に把握していますか?
2) MPS は独自の 2 つのストリームを作成し、それぞれのカーネルを正しいストリームに配置しますか? それとも、MPS はストリーム以外のメカニズムを介してカーネルの同時実行を可能にする可能性がありますか?
それが役に立てば、MPS が Volta でどのように機能するかに興味がありますが、古いアーキテクチャに関する情報も高く評価されます。