これ以上の情報がなければ、意味のある答えはおそらく不可能です。
まず第一に、これらの操作をいくつ並行して実行できるかに大きく依存します。最初に、理想的なケースを考えてみましょう。並列で完全に実行するようにコードを最適化しました。各コアはクロック サイクルごとに 4 つの命令を実行します。
この場合、1 クロック サイクルあたり 16 命令をリタイアするので、200 万/16 = 125000 クロック サイクルになります。4 GHz では、31.25 マイクロ秒になります。
反対に、コードが完全にシリアルであると仮定してみましょう。クロック サイクルごとに最大 1 つの命令がリタイアします。さらに悪いケースとしては、シリアルであるだけでなく、メモリ バウンドが激しいため、(たとえば) 100 クロック サイクル (平均) ごとに 1 つの命令だけがリタイアする可能性があります。この場合、同じ数の命令を実行するのに 50 ミリ秒かかり、1000 倍以上遅くなります。
もちろん、これらは非常に極端な例です。より典型的なケースとしては、1 クロック サイクルあたり平均 1.8 命令のキャッシュ ミスが数十命令発生する場合があります。おそらく 2.5 コアの平均使用率では、1 クロック サイクルあたり平均 4.5 命令が得られます。これにより、444444 クロック サイクルが得られ、111 マイクロ秒になります (ここでも、4 GHz を想定しています)。