cuda - 異なるハードウェアのプログラミングモデル

Question

ここが質問するのに適切な場所かどうかは本当にわかりません。さまざまな種類のハードウェアのさまざまなプログラミングモデルに興味があります。

このように始まります。NVIDIA CUDA で行っていたいくつかの作業を紹介していました。GPU をコプロセッサーとして使用する際の主な問題の 1 つは、ホストと GPU の間でデータを転送する必要があるという事実です。その後、何人かの人々が AMD の「APU」と、グラフィックスコアが通常の CPU コアと同じダイ上にあるという事実について私に質問し始めました。

Intel/AMD CPU+GPU チップには、専用の NVIDIA カードほど多くのグラフィックスコアが搭載されることはないことを指摘して、質問をかわしました。

問題は、AMD APU や Intel Sandy/Ivy Bridge チップのプログラミングモデルがどのようなものか、よくわかりません。

私の質問は次のとおりです。

AMD/Intel チップのグラフィックスコアを利用するために、プログラムはどのように作成されますか?
これらのグラフィックスコアは本当にホストメモリに直接アクセスできますか?
SP および DP FLOPS で、これらのチップのパフォーマンスの種類に関する情報はありますか?
CUDA から来て、NVIDIA GPU のプログラミングと問題の他のチップとの間にどのような類似点がありますか?
Cell プロセッサの SPE はどのようにメモリにアクセスしたのか、またはそのプログラミングモデルは現在の Intel/AMD チップと比べてどうだったのでしょうか?

score 2 · Accepted Answer

AMD / Intelチップのグラフィックコアを利用するようにプログラムをどのように作成しますか？

OpenCLですが、Intelがグラフィックコアを使用する作業を行ったとは思いません。

これらのグラフィックコアは実際にホストメモリに直接アクセスできますか？

はい。ただし、いくつか注意点があります。

ホストメモリへの帯域幅はPCI-eよりも優れていますが、GPUがグラフィックスメモリに必要な帯域幅ほどではありません（3〜4倍の違い）。
OpenCLは、状況によってはデータの独自のコピーを必要とする場合があります。GPUの場合、これは発生する必要があります（Host Mem-> Graphics Mem）。APUの場合、発生しないことを確認する必要があります。これは、私が理解しているように、バッファをどのように割り当てるかにかかっています。

基本的に、妥協の条件を変更しました。以前は、起動コスト（データをグラフィックスメモリにコピーする）が十分に大きかったため、GPUに何かを送信する際に価値があるように作業項目を十分に大きくする必要がありました。そのコストは下がっています（コピーなし）が、コアのパフォーマンスは低くなっています（コアの数が少なく、メモリ帯域幅が低くなっています）。

これは興味深い開発であり、おそらくより多くの状況でGPGPU技術を価値のあるものにしますが、そのような大きな利益はありません。ただし、利益は依然として大きくなります。

SPおよびDPFLOPSで、これらのチップのパフォーマンスの種類に関する情報はありますか？

私はマーケティングの数字を繰り返すのが嫌いですが、AMDA8-3850の見出しの数字は480GFLOPSです

CUDAから来て、NVIDIA GPUのプログラミングと問題の他のチップとの間にどのような類似点を見つけることができますか？

私はCUDAを使用したことがないので、他の誰かが答えたいと思うかもしれませんが、私の理解では、CUDAとOpenCLは多くの同じ概念（メモリモデル、カーネルなど）を持っていますが、CUDAはOpenCLのパーティーにいくつかのものをもたらしますしません（C ++-isms）

次に、NvidiaとAMDの間にはアーキテクチャ上の違いがあります。主な違いは、Nvidiaのコアがスケーラーであり、AMDがベクトルであるため、AMDで最高のパフォーマンスを得るには、ベクトル化されたコードを作成する必要があります。

score 1 · Accepted Answer

私はCUDAの経験しかありません。答えはその経験と、簡単に検索したいくつかのことに基づいています(いくつかの答えも知りたいと思っていました)。

同じように書かれていると思います。それらすべてで OpenCL を使用でき、ハードウェアの実装に違いがありますが、同じ原則に従います。
AMD と Intel がどうなるかはわかりませんが、そうです。CUDAでできます。マップされたページロックホストメモリを使用すると、ホスト上のメモリにカーネルから直接アクセスできます。NVIDIA システムが統合されている場合、NVIDIA はこの方法でメモリを使用することを推奨しています (CUDA C プログラミングガイドのセクション 5.3.1)。
はい。Intel については、11 ページの Intel HD Graphics DirectX Developer's Guide (Sandy Bridge)を確認してください (Intel HD3000 では最大 125GFlops)。AMD の場合、 AMD Radeon HD6990など、各カードの仕様ページに値を記載しています。おそらくどこかで比較を見つけることができます。
前述したように、プログラミングモデルは似ていると思いますが、OpenCL にはカーネル、ホストとデバイスのメモリ、およびスレッドとワーキンググループの識別子の概念もあります (ほんの一例です)。パフォーマンスを最大化するには、特定のアーキテクチャについてある程度知っておく必要がありますが、同様のアプローチを使用してすべてを処理できます。
わからない...

score -1 · Accepted Answer

Bigdata を使用して OpenCL で作業を行いました。

AMD/Intel チップのグラフィックスコアを利用するために、プログラムはどのように作成されますか?

OpenCL は、異種環境で動作する低レベルのプログラミングモデルです。次のようなシステムですべての計算リソースを使用するように構築されています。CPU、GPU、APU、FPGA など。OpenCL コードプログラムは、GPU および CPU のコアで実行されるカーネルとも呼ばれます。

Intel は主に GPU ではなくプロセッサで知られていますが、Intel GMA やその後の Intel HD Graphics のように、かなり長い間 GPU も提供しています。

cuda - 異なるハードウェアのプログラミング モデル

3 に答える 3

Related

Reference

cuda - 異なるハードウェアのプログラミングモデル