単語間の共起類似度を計算するために Hadoop を使用しています。次のような共起単語のペアで構成されるファイルがあります。
a b
a c
b c
b d
私は単語をノードとして扱うグラフベースのアプローチを使用しており、共起する単語はそれらの間にエッジがあります。私のアルゴリズムは、すべてのノードの次数を計算する必要があります。Map-Reduce
以下を出力する合計学位を計算するジョブを正常に作成しました。
a 2
b 3
c 2
d 1
現在、出力はファイルに書き戻されますが、代わりに、結果をjava.util.HashMap
. HashMap
次に、これを別のReduce
ジョブで使用して、最終的な類似度を計算したいと考えています。
ここに私の質問があります:
- リデュース ジョブの結果をメモリに取り込むことはできますか (
List
、Map
)。もしそうなら、どのように? - これは最善のアプローチですか?そうでない場合、これにどのように対処すればよいですか?