約200万の大きなファイルサイズでHadoopを使用することについて明確にしています。200万行からなるファイルデータがあり、各行を1つのファイルに分割し、Hadoopファイルシステムにコピーして、Mahoutを使用して期間頻度の計算を実行します。Mahoutは、分散方式でmap-reduce計算を使用します。しかし、このために、たとえば、200万行で構成されるファイルがある場合、各行を用語頻度の計算用のドキュメントとして使用します。最終的に1つのディレクトリが作成され、200万のドキュメントが作成されます。各ドキュメントは1行で構成されます。これにより、nファイルのnマップが作成されます。ここでは、プロセス用に200万のマップが作成されます。これは計算に多くの時間がかかります。計算を高速化するためにドキュメントを表現する別の方法はありますか?
質問する
180 次