Return Infinity http://www.returninfinity.com/ (私は何の関係もありません) の製品を見て、試してみてください。
私自身のスーパーコンピューティングの経験は、TLB を (ほぼ完全に) スキップし、フラット メモリ モデルを実行することと、カーネルとユーザーランド間のコンテキスト切り替えの欠如を組み合わせることで、一部のタスクを高速化できることを示しています。レベル、TCP でさえ、なぜわざわざ)、およびブルート フォース計算 (メモリ管理の欠如による)。
TLB またはキャッシュ サイズを超えるブルート フォース計算では、RAM ベースの変換テーブル ルックアップを実行する必要がある場合と比較して、約 5 ~ 15% のパフォーマンスの向上が期待できます。モノリシックリンクを使用して静的にページを作成します)。
高帯域幅の作業では、特に小さなメッセージ パッシングが多い場合、(マルチタスク) OS を完全に削除するか、アプリケーションをカーネルとしてロードすることにより、カーネル スペースに移行することで 500% の高速化を簡単に実現できます。ドライバーであり、抽象化全体も回避します。MAC 層の ping のネットワーク遅延を 18us から 1.3us に下げることができました。
L1 キャッシュ内に収まる計算では、最小限の改善 (約 1%) が予想されます。
それはすべて問題ですか?はいといいえ。ハードウェアのコストがエンジニアリングのコストを大幅に上回っており、考えられるすべてのアルゴリズムの改善を行った場合 (さらに良いことに、実行された計算が結果に必要な計算とまったく同じであることが証明されました!) - これにより、意味のあるパフォーマンス上の利点が得られます。ハードウェアの償却費を含まない年間約 800 万ドルの電気代がかかるスーパーコンピューターの 3% (全体的な平均成功) は、年間 24,000 ドルの価値があります。実行する最も一般的なタスクを最適化するために、エンジニアに 1 か月分の料金を支払うのに十分です :)。