ファイルの一部をキーとして表現したいHadoopmap-reduceプログラムを使用しています。これは、いくつかの分析に使用したいと思います。しかし、これがパフォーマンスをもたらしていることがわかりました。大量のテキストを使用する代わりの方法があるかどうか誰かに教えてもらえますか?他の形式でエンコードできますか?文字列をバイト形式またはバイナリ形式に変換することでもわかりました。しかし、それでも整数データ型で格納することはできません。私はそれをBigIntegerに変換しようとしましたが、類似していないテキストを縮小するときに衝突が発生するため、無駄になりました。テキストデータ型を使用する以外に、マッパーでキーとしてテキストの大きなチャンクを表す方法。