そのため、これを投稿する前に大量の記事やフォーラムを確認しましたが、矛盾する回答を読み続けています. まず、OS は問題ではありません。Windows または Unix のいずれかを使用できます。問題に最適なものは何でも使用できます。読み取り専用の目的で使用する必要がある大量のデータがあります (これが問題になる理由はわかりませんが、問題が発生した場合に備えて、通過する必要があるデータ構造は、配列の配列です。値も配列であるハッシュの配列)。私は基本的に、「クエリ」をさまざまな「文」と比較し、それらの相対的な類似性を計算しています。これらの量 (数百万) から、上位の x% を取得して、何かを実行したいと考えています。このプロセスを並列化する必要があります。そこには' スペースを減らすには良い方法ではありません。良い結果を得るにはすべてを比較する必要があり、ある種のスレッド/フォークでは時間がかかりすぎます。繰り返しますが、私は多くの相反する答えを見てきましたが、どれをすべきかわかりません。
どんな助けでも大歓迎です。前もって感謝します。
編集:メモリ使用量が問題になるとは思いませんが、わかりません(8 GB RAM)