これが私のMacBook Airのc ++での結果です。実行時間は2.692秒です
これが私のArduinoコードです。「for」の前後の時間をマイクロ秒単位で取得します。
違いは 0.000732 秒である 732 マイクロ秒です。
コードをコンパイルしているように見えるので、MSVC がデバッグ モードでコードをコンパイルする方法を見てみましょう...
unsigned int max = 1000000000L;
011643BE mov dword ptr [max],3B9ACA00h
for (unsigned int i=0; i<max; i++)
011643C5 mov dword ptr [ebp-14h],0
011643CC jmp main+37h (011643D7h)
011643CE mov eax,dword ptr [ebp-14h]
011643D1 add eax,1
011643D4 mov dword ptr [ebp-14h],eax
011643D7 mov eax,dword ptr [ebp-14h]
011643DA cmp eax,dword ptr [max]
for (unsigned int i=0; i<max; i++)
011643DD jae main+4Eh (011643EEh)
{
n++;
011643DF mov eax,dword ptr ds:[0116F218h]
011643E4 add eax,1
011643E7 mov dword ptr ds:[0116F218h],eax
}
011643EC jmp main+2Eh (011643CEh)
では、リリースモードで見てみましょう...
unsigned int max = 1000000000L;
for (unsigned int i=0; i<max; i++)
00FC1270 mov eax,dword ptr ds:[00FC4430h]
{
n++;
}
std::cout << n;
00FC1275 mov ecx,dword ptr ds:[0FC3030h]
00FC127B add eax,3B9ACA00h
00FC1280 push eax
00FC1281 mov dword ptr ds:[00FC4430h],eax
00FC1286 call dword ptr ds:[0FC3038h]
違いに気づきましたか?リリース モードでは、ループが完全に最適化されています。
では、ギアを切り替えて、Arduino がこれをどのように行うかを見てみましょう。AVR アセンブリの準備をしましょう...
for(i=0; i<1000000000; i++)
{
n++;
}
Serial.println(n);
d8: c8 01 movw r24, r16
da: 40 e0 ldi r20, 0x00 ; 0
dc: 5a ec ldi r21, 0xCA ; 202
de: 6a e9 ldi r22, 0x9A ; 154
e0: 7b e3 ldi r23, 0x3B ; 59
e2: 2a e0 ldi r18, 0x0A ; 10
e4: 30 e0 ldi r19, 0x00 ; 0
e6: 0e 94 c4 04 call 0x988 ; 0x988 <_ZN5Print7printlnEli>
うわあ!ループアウトも最適化されました!コンパイラは頭のいい小さな野郎です、init?!?!
...考えてみると、.0007 秒は、その長いループを実行するのに少し速くありませんか? これは、約 43 クロック サイクル分の時間にすぎませんSerial.println()
。
まず、あなたが書いたコードは非常に単純です。このようなコードのコンパイル結果は、コンパイラとコンパイラの設定によって大きく異なります。適切に構成された最適化コンパイラは、通常、n
サイクルなしでの最終値の単純な割り当てにコンパイルします。n
または、完全に排除することさえできます。その場合、実際に測定しているのは「空」です。[ほとんど]何もしないプログラムの起動時間と終了時間です。
第二に、使用している測定方法は、コードの 2 つのバージョン間で完全に異なっているようです。最初のケースでは、システム レベルで何かを使用しているように見えます。つまり、さまざまな起動時間と終了時間が最終集計に含まれている可能性があります。2 番目のケースでは、測定値を実際のコードに組み込み、サイクルのみが測定されるようにしました (これもおそらくコンパイラによって削除されます)。
言い換えれば、おそらく存在しないものを計測するために一貫性のない方法を使用しているということです。得られた結果は、コードのパフォーマンスとはほとんど関係がないか、まったく意味をなさない可能性が高くなります。
関連する技術的な説明は AndreyT によって提供されていますが、正しい方向を見るのに役立つ簡単で汚い見積もりは次のとおりです。
Arduino が実際に約 1 ミリ秒 (730 マイクロ秒) で 10 億 (1e9) のインクリメントを管理し、余分なインクリメントを無視してループ カウンターとジャンプ命令をチェックするとします。これは、Arduino が特定の頻度でインクリメントを処理できることを意味します。少なくとも 1e12 Hz、つまり 1000 GHz です (これは、処理されたインクリメント命令の周波数の推定値であり、必ずしも「CPU 周波数」と同等ではありませんが、他の情報がない場合はかなり問題のない推定値であることに注意してください)。ありそうもない。したがって、arduino コンパイラーが単純にループ全体を排除したと想定しても安全です。
(お使いの MacBook の同じ見積もりでは、少なくとも (1e9/2.7) Hz の周波数が得られるため、およそ 370Mhz の増分です。OS のオーバーヘッドと、ループに追加の増分、ジャンプ、および比較が必要であるという事実を考慮すると、これでうまくいきます。あなたのプロセッサ周波数にかなり近いので、Mac プログラム用のコンパイラが実際にループを維持していると思います。)