parallel_forにSSE2組み込みを使用するのは良い考えですか?
SSE2レジスタの数が限られているので、パフォーマンスの面でペナルティが発生しますか?
各CPUダイには独自のSSE2レジスタがありますか?
parallel_forにSSE2組み込みを使用するのは良い考えですか?
SSE2レジスタの数が限られているので、パフォーマンスの面でペナルティが発生しますか?
各CPUダイには独自のSSE2レジスタがありますか?
各CPUコアには独自のSSEレジスタがあります。スレッドとSSEはほとんど関係ありません。どちらもお気軽にご利用ください。
parallel_forにSSE2組み込みを使用するのは良い考えですか? 場合によります。それは間違いなく悪い考えではありません。コードのプロファイルを作成し、パフォーマンスが最も重要な場合は組み込み関数を使用する必要があります。
SSE2レジスタの数が限られているので、パフォーマンスの面でペナルティが発生しますか? レジスターのプレッシャーが気になる場合は、それについて心配する必要はありません。組み込み関数を使用する場合(アセンブリの書き込みとは異なり)、コンパイラがレジスタ割り当てを行います。組み込み関数で手書きされたコードは、通常、高級言語からコンパイルされたコードよりもコンパクトです。変更を加えるたびにコードのプロファイルを作成して、パフォーマンスが向上したかどうかを確認する必要があります。
各CPUダイには独自のSSE2レジスタがありますか? 各論理CPUには、独自の8個(32ビットモードの場合)または16個(64ビットモードの場合)のXMMレジスタがあります。最新のCPUでは、各コアは論理CPUであり、ハイパースレッディングが有効になっている場合は2つの論理CPUです。