Cassandraデータベースに文字列のリストを入力し、Hadoopを使用して処理したいと思います。私がやりたいことは、Hadoopクラスターを使用してすべての文字列を順番に実行し、最長の共通部分文字列を見つけるために各文字列間にどれだけのオーバーラップがあるかを記録することです。
私の質問は、InputFormatオブジェクトを使用すると、データを並べ替えられた順序で読み取ることができますか、それとも、クラスター内のすべてのマシン全体で文字列を「ランダムに」(Cassandraがデータを配布する方法に従って)読み取ることができますか?MapReduceプロセスは、私が求めているように2つの行を連続して見ることを意図せずに、各行を単独で処理するように設計されていますか?