問題タブ [xeon-phi]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
intrinsics - Xeon Phi での double のマスクの操作
組み込み関数を使用して、Xeon Phi で条件付き計算を行っています。double 値を使用する必要があるため、__mmask8 が必要です。いくつかの比較関数を使用する限り問題はありませんが、それらのマスクを変更したい場合、型の競合が発生します。ドキュメントには、単精度に使用される__mmask16を変更するための関数がたくさんありますが、倍精度に使用できる関数は 1 つもありません。
私は次のようなことをしたい:
ドキュメントは、__mmask16 に対してのみ指定された関数を提供します。ドキュメントのVector Mask Intrinsic の章にあるすべての操作関数についても同様です。
それらの機能も使えますか?
「__mmask16 のすべてのビットを使用する」のような規則はありますか?
前もって感謝します
intel - インテル Xeon Phi でのクロック サイクルあたりの乗算回数
インテル Xeon Phi では、コアごとに 32 個の 512 ビット幅のベクトル レジスタがあります。各ベクトル レジスタは、1 サイクルあたり 16 の単精度浮動小数点演算を実行できます。また、1 サイクルで 2 つの操作を実行できます (V パイプで 1 回、U パイプで 1 回)。
ベクトル レジスタで実行されるベクトル乗算とは別に、1 クロック サイクルで実行できるスカラー乗算の数を知りたいです。
versioning - インテル Xeon Phi コプロセッサー向けのインテル スレッディング ビルディング ブロックのサポート
Intelのフォーラムでこれを尋ねましたが、うまくいきませんでした。
Intel TBB のどのバージョンで Xeon Phi コプロセッサのサポートを開始したか知っている人はいますか?
icc - 特定のモデルの xeon phi を取得する
使用している Xeon Phi コプロセッサの正確なモデルを見つけようとしています。私はmicpinfoを実行し、これが私が得たものです
c - KNC (Xeon Phi) のベクトル配列で数値のインスタンスを見つける
knc (Xeon Phi) が提供する SIMD 512 を利用して、Intel 組み込み関数を使用して以下の C コードのパフォーマンスを向上させようとしています。ただし、組み込みの組み込みコードは、自動ベクトル化されたコードよりも遅く実行されます
Cコード
組み込みコード: 以下のコードでは、最初に配列をロードし、それを検索キーと比較しています。組み込み関数は、_mm512_mask_reduce_add_epi32() を使用して削減された 16 ビットのマスク値を返します。
このコードには余分なサイクルが導入されているため、自動ベクトル化されたコードに比べて実行速度が遅いと思います。比較の値を 128 ビット レジスタに直接返す SIMD128 とは異なり、SIMD512 はマスク レジスタに値を返すため、コードがさらに複雑になります。ここで何か不足していますか? XOR ops などのマスクを使用するのではなく、成功した検索のカウントを直接比較して保持する方法が必要です。
最後に、組み込み関数を使用してこのコードのパフォーマンスを向上させる方法を教えてください。組み込み関数を使用して、より多くのパフォーマンスを引き出すことができると信じています。これは少なくとも SIMD128 には当てはまり、組み込み関数を使用することで 25% のパフォーマンスを得ることができました。
architecture - Intel の xeon phi のコプロセッサ アーキテクチャ
Intel から新しい xeon phi コプロセッサの世界に入ります。2つの質問をしたいのですが、お互いに近いです。
まず、かなり基本的なことですが、gpu グラフィック カードに対するプログラミング/コスト/パフォーマンスと比較して、長所と短所は何ですか。
次に、ドキュメンテーションには、コプロセッサーがリング相互接続を介して接続されていると記載されています。他にどのような相互接続が存在し、どのように機能するのでしょうか? (有益なコンピュータ アーキテクチャに関する潜在的な参照は大歓迎です)。
gmp - Xeon Phi で GMP を使用している人はいますか?
icc と -mmic オプションを指定して GMP をコンパイルしましたが、MIC にインストールできません。どのようにインストールすればよいですか? icc でコンパイルしたデモ プログラムを作成しました。gmp.h が見つからないと表示されます。MIC に GMP ライブラリをインストールする方法と、gmp.h を配置する場所を教えてください。
mpi - Xeon-Phi を MPI プロセスに割り当てる
私のシステムでは、1 つのノードに 2 つの xeon-phi カードが接続されています。オフロード モードで xeon-phi アクセラレーションを使用する分散 MPI コードを実行しようとしています。ノードごとに 2 つの MPI プロセスを実行する場合、xeon-phi を各 MPI プロセスに割り当てるにはどうすればよいでしょうか。各 MPI プロセスが異なる MIC を使用していることを確認するにはどうすればよいですか?