1 行に 1 つの文字列を含む大きなテキスト ファイル (5 GB) があります。独自のアルゴリズムを使用して、各行を他のすべての行と比較する必要があります。MapReduce は初めてですが、Java の経験があります。問題を引き起こしている問題は、個別のマップ入力を作成することです。ドキュメントは、各行が他の行に依存していないという前提で書かれているようです。これを行う最善の方法は何ですか?
1 に答える
0
Hadoopとの結合を行うことに関するいくつかの興味深い論文があります:
http://www.inf.ed.ac.uk/publications/thesis/online/IM100859.pdf http://www.inf.ed.ac.uk/publications/thesis/online/IM090720.pdf http:// pages.cs.wisc.edu/~jignesh/publ/hadoopjoin.pdf
Hadoopのマップされた結合フレームワークも調べる必要があると思います。
http://hadoop.apache.org/common/docs/r0.20.0/api/org/apache/hadoop/mapred/join/package-summary.html
于 2012-08-09T10:25:03.377 に答える