配列の要素に対していくつかの計算を行うアルゴリズムがあります。入力データバッファを再利用して結果を書き込みたいのですが。データトラバーサルパターンに関しては、ほぼ次のようになります(forループで発生する他の唯一のことは、いくつかのポインターへの増分と変数のカウントです)。
int *inputData = /*input data is here */;
for(int i=0;i<some_value;++i)
{
int result = do_some_computations(*inputData);
*inputData = result;
++inputData;
}
ここで興味深い部分:inputDataには約600万の要素が含まれています。inputData配列への書き込みをコメントアウトすると、アルゴリズムは基本的に次のようになります。
int *inputData = /*input data is here */;
for(int i=0;i<some_value;++i)
{
int result = do_some_computations(*inputData);
// *inputData = result;
++inputData;
}
このアルゴリズムは、一連の約100回の測定で、平均して約7ミリ秒かかります。ただし、書き込みをそのままにしておくと、アルゴリズムに約55ミリ秒かかります。「*inputData= do_some_computations(* inputData);」と書く 現在の方法ではなく、パフォーマンスに違いはありません。別のoutputBufferを使用しても違いはありません。
これは悪いです。このアルゴリズムのパフォーマンスは、プログラムの要件にとって絶対的に重要です。私は7ミリ秒で非常に満足していましたが、55ミリ秒で非常に不満です。
この単一の書き戻しがなぜこのような大きなオーバーヘッドを引き起こすのですか、そしてどうすればそれを修正できますか?