c++ - Arduino の計算が MacBook Air よりも 0 ～ 10 億高速なのはなぜですか?

Question

これが私のMacBook Airのc ++での結果です。実行時間は2.692秒です

これが私のArduinoコードです。「for」の前後の時間をマイクロ秒単位で取得します。
違いは 0.000732 秒である 732 マイクロ秒です。

score 13 · Accepted Answer

コードをコンパイルしているように見えるので、MSVC がデバッグモードでコードをコンパイルする方法を見てみましょう...

unsigned int max = 1000000000L;
    011643BE  mov         dword ptr [max],3B9ACA00h  
for (unsigned int i=0; i<max; i++)
    011643C5  mov         dword ptr [ebp-14h],0  
    011643CC  jmp         main+37h (011643D7h)  
    011643CE  mov         eax,dword ptr [ebp-14h]  
    011643D1  add         eax,1  
    011643D4  mov         dword ptr [ebp-14h],eax  
    011643D7  mov         eax,dword ptr [ebp-14h]  
    011643DA  cmp         eax,dword ptr [max]  
for (unsigned int i=0; i<max; i++)
    011643DD  jae         main+4Eh (011643EEh)  
{
    n++;
    011643DF  mov         eax,dword ptr ds:[0116F218h]  
    011643E4  add         eax,1  
    011643E7  mov         dword ptr ds:[0116F218h],eax  
}
011643EC  jmp         main+2Eh (011643CEh)

では、リリースモードで見てみましょう...

unsigned int max = 1000000000L;
for (unsigned int i=0; i<max; i++)
    00FC1270  mov         eax,dword ptr ds:[00FC4430h]  
{
    n++;
}
std::cout << n;
    00FC1275  mov         ecx,dword ptr ds:[0FC3030h]  
    00FC127B  add         eax,3B9ACA00h  
    00FC1280  push        eax  
    00FC1281  mov         dword ptr ds:[00FC4430h],eax  
    00FC1286  call        dword ptr ds:[0FC3038h]

違いに気づきましたか？リリースモードでは、ループが完全に最適化されています。

では、ギアを切り替えて、Arduino がこれをどのように行うかを見てみましょう。AVR アセンブリの準備をしましょう...

for(i=0; i<1000000000; i++)
{
 n++;
}
Serial.println(n);
    d8: c8 01           movw    r24, r16
    da: 40 e0           ldi r20, 0x00   ; 0
    dc: 5a ec           ldi r21, 0xCA   ; 202
    de: 6a e9           ldi r22, 0x9A   ; 154
    e0: 7b e3           ldi r23, 0x3B   ; 59
    e2: 2a e0           ldi r18, 0x0A   ; 10
    e4: 30 e0           ldi r19, 0x00   ; 0
    e6: 0e 94 c4 04     call    0x988   ; 0x988 <_ZN5Print7printlnEli>

うわあ！ループアウトも最適化されました！コンパイラは頭のいい小さな野郎です、init?!?!

...考えてみると、.0007 秒は、その長いループを実行するのに少し速くありませんか? これは、約 43 クロックサイクル分の時間にすぎませんSerial.println()。

score 12 · Accepted Answer

まず、あなたが書いたコードは非常に単純です。このようなコードのコンパイル結果は、コンパイラとコンパイラの設定によって大きく異なります。適切に構成された最適化コンパイラは、通常、nサイクルなしでの最終値の単純な割り当てにコンパイルします。nまたは、完全に排除することさえできます。その場合、実際に測定しているのは「空」です。[ほとんど]何もしないプログラムの起動時間と終了時間です。

第二に、使用している測定方法は、コードの 2 つのバージョン間で完全に異なっているようです。最初のケースでは、システムレベルで何かを使用しているように見えます。つまり、さまざまな起動時間と終了時間が最終集計に含まれている可能性があります。2 番目のケースでは、測定値を実際のコードに組み込み、サイクルのみが測定されるようにしました (これもおそらくコンパイラによって削除されます)。

言い換えれば、おそらく存在しないものを計測するために一貫性のない方法を使用しているということです。得られた結果は、コードのパフォーマンスとはほとんど関係がないか、まったく意味をなさない可能性が高くなります。

score 4 · Accepted Answer

関連する技術的な説明は AndreyT によって提供されていますが、正しい方向を見るのに役立つ簡単で汚い見積もりは次のとおりです。

Arduino が実際に約 1 ミリ秒 (730 マイクロ秒) で 10 億 (1e9) のインクリメントを管理し、余分なインクリメントを無視してループカウンターとジャンプ命令をチェックするとします。これは、Arduino が特定の頻度でインクリメントを処理できることを意味します。少なくとも 1e12 Hz、つまり 1000 GHz です (これは、処理されたインクリメント命令の周波数の推定値であり、必ずしも「CPU 周波数」と同等ではありませんが、他の情報がない場合はかなり問題のない推定値であることに注意してください)。ありそうもない。したがって、arduino コンパイラーが単純にループ全体を排除したと想定しても安全です。

(お使いの MacBook の同じ見積もりでは、少なくとも (1e9/2.7) Hz の周波数が得られるため、およそ 370Mhz の増分です。OS のオーバーヘッドと、ループに追加の増分、ジャンプ、および比較が必要であるという事実を考慮すると、これでうまくいきます。あなたのプロセッサ周波数にかなり近いので、Mac プログラム用のコンパイラが実際にループを維持していると思います。)

c++ - Arduino の計算が MacBook Air よりも 0 ～ 10 億高速なのはなぜですか?

3 に答える 3

Related

Reference