どのような実験をしたいのか、どのような目的で、どのくらいの期間行うのかによって、かなり異なると思います。
ハードウェアを購入して独自のクラスターを実行することを検討している場合は、コンピューティング ノードを管理するために Hadoop や Storm のようなものが必要になるでしょう。ほんの数秒で 4 TB のデータを通過することがどれほど実現可能かはわかりませんが、それは実行したい処理の種類によって異なります。4TB コーパス内の単語の頻度を数えることは (Mac でも) 非常に簡単ですが、SVM を構築したり、大量に LDA のようなことをしたりするのはそうではありません。遭遇する問題の 1 つは、そのすべてを収めるのに十分なメモリがないということです。そのため、ディスクからメソッドを実行できるライブラリが必要になります。
要件が正確にわからない場合は、EC2 を使用してテスト リグをセットアップし、何をしたいのか、時間内にどれだけのうなり声/メモリを実行する必要があるかをよりよく理解します。あなたが必要とします。
私たちは最近、それぞれが 256Gb のメモリと数テラバイトのディスク容量を備えた 128 コアの 2 つのコンピューティング ノードを購入しました。これらは AMD interlagos マシンです。つまり、コンピューティング クラスターには既にインフィニバンド ストレージがあるため、インフラストラクチャ全体ではなく、それに接続して 2 つのコンピューティング ノードを購入するだけで済みました。
ここで行うべきことは、数ギガバイトなどの小さなデータ セットから始めることです。これで Mac で作業を開始できます。データとさまざまな方法を試して、何が機能し、何が機能しないかを把握してから、パイプラインをクラウドに移動し、より多くのデータで実行できます。単一のサンプルで実験を開始したくない場合は、完全なコーパスのさまざまな部分からいつでも複数のサンプルを取得できます。サンプル サイズを、自分のワークステーションで管理できるサイズに抑えてから開始してください。
余談ですが、機械学習には GitHubのscikit-learnプロジェクトを強くお勧めします。Python で書かれていますが、ほとんどの行列演算は Fortran または C ライブラリで行われるため、かなり高速です。開発者コミュニティもこのプロジェクトで非常に活発です。おそらくもう少し親しみやすい (専門知識のレベルに応じて) 別の優れたライブラリはNLTKです。それほど高速ではありませんが、すべてをマトリックスとして考えることに慣れていない場合は、もう少し理にかなっています。
アップデート
言い忘れたことの 1 つは、プロジェクトの実行時間です。別の言い方をすれば、専用ハードウェアをどれくらいの期間使用できるかということです。今後 10 年間 EU 議会で使用される予定のプロジェクトであれば、間違いなくハードウェアを購入する必要があります。NLP に慣れるためのプロジェクトである場合、独自のクラウド コンピューティング レンタル サービスを開始することも計画していない限り、お金を出すのは少し冗長かもしれません :)。
とはいえ、EC2 を使用することの実際のコストがこのようなものであるかどうかはわかりません。私はそれらを使用する必要はありませんでした。