java - Hadoop MapReduce とのペアワイズ比較

Question

1 行に 1 つの文字列を含む大きなテキストファイル (5 GB) があります。独自のアルゴリズムを使用して、各行を他のすべての行と比較する必要があります。MapReduce は初めてですが、Java の経験があります。問題を引き起こしている問題は、個別のマップ入力を作成することです。ドキュメントは、各行が他の行に依存していないという前提で書かれているようです。これを行う最善の方法は何ですか？

score 0 · Accepted Answer

Hadoopとの結合を行うことに関するいくつかの興味深い論文があります：

http://www.inf.ed.ac.uk/publications/thesis/online/IM100859.pdf http://www.inf.ed.ac.uk/publications/thesis/online/IM090720.pdf http：// pages.cs.wisc.edu/~jignesh/publ/hadoopjoin.pdf

Hadoopのマップされた結合フレームワークも調べる必要があると思います。

http://hadoop.apache.org/common/docs/r0.20.0/api/org/apache/hadoop/mapred/join/package-summary.html

java - Hadoop MapReduce とのペアワイズ比較

1 に答える 1

Related

Reference