1

24 時間モードで約 256 の計算集約型リアルタイム同時タスクを実行する必要があるハードウェアを探しています (1 つのマルチスレッド C アプリケーション)。各タスクには約 40 ~ 50 MFLOP かかるため、すべてのタスクには約 10 GFLOP が必要です。CPU-RAM の速度は重要ではありません。すべてのタスクは Linux カーネル (32 ビット、SMP 付き) で管理する必要があります。

1 つのマルチコア CPU を備えた 1 つのメインボード ソリューションを探しています (そのような CPU が存在する場合)。そのような CPU が存在しない場合は、1 つのマルチソケット メインボード ソリューション (複数の CPU を使用) が必要です。

このような要件を満たすプロフェッショナル向けの CPU/メインボード ソリューションを教えてください。Linux カーネル (2.6.25) に問題がないことも非常に重要です。仮想化も、巨大な RAM や CPU キャッシュも必要ありません。また、Intel アーキテクチャと実績のある安定性も好みます。私はまだそれが実現可能かどうか疑問に思っています。

前もって感謝します。

更新:ここここで正しい答えを見つけたと思います。

4

7 に答える 7

3

UltraSPARC T2には、それぞれ 8 つのスレッドを持つ 8 つのコアがあります。高帯域幅メモリと IO を統合。T5140には、128 個のハードウェア スレッド用に 2 つ搭載されています。

8 つの浮動小数点ユニットの理論上の最大生パフォーマンスは、毎秒 11 ギガ フロップ (GFlops/s) です。ただし、他の実装に対する大きな利点は、64 のスレッドがユニットを共有できるため、理論上のピークの非常に高いパーセンテージを達成できることです。私たちの実験では、11 Gflop/s のほぼ 90% を達成しました。- ( http://blogs.oracle.com/deniss/entry/floating_point_performance_on_the )

于 2009-12-10T17:55:47.340 に答える
1
  1. いくつかの Amazon EC2 ノードをレンタルします。

  2. 更新:PS3はどうですか?NASA はそれらをシミュレーション エンジンに使用しています。

  3. たぶん、商用サーバーでCPU + GPUを使用しますか?

  4. FPGAを中心に構築: 最近では、一部のバリアントには Linux を実行できるプロセッサが含まれています。

于 2009-12-10T17:45:08.907 に答える
1

必要と思われる仕様を提供していただいたとしても、アプリケーションが何を達成しようとしているのか、どのように実装されたのかをお知らせいただければ、より適切なサポートを提供できる可能性があります。

現在のソリューションではなく、作業を分割または処理するためのより良い方法があるかもしれません。

于 2009-12-10T17:55:20.133 に答える
0

MFLOPSとGFLOPSは、特定のCPUでプログラムをどれだけうまく実行できるかを示す非常に貧弱な指標です。最近では、キャッシュのフットプリントがはるかに重要になっています。おそらく分岐予測の精度も。

実際にスピンを与えずに、さまざまなアーキテクチャで特定のアプリケーションのパフォーマンスを測定する方法はほとんどありません。それでも、キャッシュフットプリントを台無しにするコンパイラオプションを使用して無意識のうちにビルドしたり、不適切なスレッドライブラリを使用したり、その他100のいずれかを使用したりするのに不運だった場合は、良いアイデアが得られない可能性があります。

于 2009-12-11T02:20:37.140 に答える
0

intel の方がいいと思いますが、チップが 1 つ必要な場合は、セル プロセッサをお勧めします - 理論上のピーク パフォーマンスは約 25GFlops です - カーネル 2.6.25 では既にサポートされています。

実験用にスリム化前のプレイステーション 3 を試すこともできますが (費用はほとんどかかりません)、サーバーベースのソリューションを約 8,000 ドルで手に入れることもできます。そこにはSPUコプロセッサがありますが、単一のCELL(1つのPPCコア+ 8つのSPU)で苦労することなく、計算のニーズを達成できます

注意: プレイステーション 3 では、利用可能なコプロセッサは 6 つしかありませんが、このプロジェクトでは予算に余裕がないようです。少なくとも、エミュレータを提供する IBM のセル開発者キットを試すことができます。ソリューションを実行するようにコーディングできるかどうかを確認します。

ブレード フォーム ファクトリのスタンドアロン サーバーとして、および Mercury Computer Systems の PC ワークステーション用の PCI Express アドオン ボードとして、3 つの CELL 製品が市販されています: http://www.mc.com/microsites/cell/products.aspx ?id=6986

Mercury はサイトに価格を掲載していませんが、これらの PCI Express カードの価格は、前述の 8000.00 米ドル前後であると見られます。

プレイステーション 3 のビデオゲームは約 300.00 米ドルで購入できます。これにより、アプリケーションのプロトタイプを作成し、必要なパフォーマンスに達しているかどうかを確認できます。(私自身が Fedora 9 を実行していますが、これは趣味で行ったものであり、これまで計算に使用したことはありません。彼らが実行するアプリケーションはマルチメディア SPU を利用していませんでしたが、私はその時連絡を取り合っていました. それでも、3.5 GHz のクロックで、PS3 の価格が 5 倍であることを考慮しても、標準の PC よりも優れたパフォーマンスを発揮しました。このあたりはもっと高い)

于 2009-12-10T18:03:12.690 に答える
0

4 コアまたは 8 コアのマシンを多数用意し、何らかのグリッドまたはクラスタリング ソフトウェアを使用してマシン間で処理を分割します。Beowulfを見てください。

あなたが言ったように、10GFlops は正確にくしゃみをするわけではないので、1 台のマシンでは高価になります。また、マシンが壊れたときにどうするかという問題もあります。同じような仕様のマシンを 2 台用意することはまずありません。コモディティ ハードウェアを使用してクラスターを構築すると、回復力が少し向上し、交換用のマシンを簡単に見つけることができます。

于 2009-12-10T17:47:36.727 に答える
0

Intel アーキテクチャではありませんが、これらは Linux を実行し、単一のダイに 64 コアを搭載しています。

TILEPro64

于 2009-12-10T17:49:06.897 に答える