1

Xeon E5 と Xeon Phi で for ループを 1,000,000,000 回実行し、時間を測定してそれらの有効性を比較しようとしましたが、次の結果が得られたことに非常に驚いています。

  • E5 (1 スレッド): 41.563 秒
  • E5 (24 スレッド): 22.788 秒
  • Xeon Phi でのオフロード (240 スレッド): 45.649 秒

効能が悪い理由を誰か教えてもらえますか?建築か何かについて?

Xeon Phi で効率が悪いのはなぜですか? for ループでは何もしません。Xeon Phi コプロセッサーに問題がなかった場合、Xeon Phi のどの機能が優れているのでしょうか? ベクトル化する必要がありますか? ベクトル化ではない場合、Xeon Phi で何かできることはありますか?

4

3 に答える 3

1

まず、チップ全体を利用する必要があります。つまり、SIMD ユニットも利用する必要があります。第 2 に、Xeon Phi プロセッサを利用するには、パイプラインがアイドル状態のままであってはなりません。つまり、パイプライン内に常に十分な命令が存在している必要があります。ベンチマークでは命令は発行されないため、基本的に空のループの起動を測定し (コンパイラによって最適化されている可能性があります)、CPU のクロックが高いため、CPU でより高速に実行されます。

さらに、私のベンチマークでは、Xeon Phi のパフォーマンスが最も内側のループ (SIMD ユニットで実行される) の長さに非常に敏感であることがわかりました。

于 2015-04-10T01:16:34.480 に答える
1

Xeon Phiは最悪です。中程度の並列アプリケーションでは、従来の xeon が xeon Phi を打ち負かし、大規模な並列アプリケーションでは GPGPU が支配します。Xeon Phi は、アプリケーションを完全に並列化およびベクトル化できる場合、どちらか一方が完全でない場合、Xeon Phi を忘れて、わずかな競争力しかありません。

編集: xeon phi が従来の xeon よりも悪い、または GPGPU よりも悪い動作をするいくつかの例:

blog.xcelerit.com/intel-xeon-phi-vs-nvidia-tesla-gpu/

http://www.delaat.net/awards/2014-03-26-paper.pdf

https://verc.enes.org/ISENES2/documents/Talks/WS3HH/session-4-hpc-software-challenges-solutions-for-the-climate-community/markus-rampp-mic-experiences-at-mpg

于 2014-12-18T17:08:03.937 に答える