K個のファイルのセットで最も人気のあるN個のコロケーションを見つけるのを手伝ってくれる人はいますか? 最も人気のある単語 (単語カウンター) を見つけるための基本的な Map Reduce を既に実装しています。しかし、どうすればコロケーションを処理できますか? どんなスニペットも歓迎します (Erlang、Python、Java、C++)。
簡単にするために、コロケーションは 2 つの単語からなる表現であると仮定します。例えば「美少女」「闇の乗客」。
K個のファイルのセットで最も人気のあるN個のコロケーションを見つけるのを手伝ってくれる人はいますか? 最も人気のある単語 (単語カウンター) を見つけるための基本的な Map Reduce を既に実装しています。しかし、どうすればコロケーションを処理できますか? どんなスニペットも歓迎します (Erlang、Python、Java、C++)。
簡単にするために、コロケーションは 2 つの単語からなる表現であると仮定します。例えば「美少女」「闇の乗客」。