2

などの数字のセットがあり、を使用してそれらの を1,4,10,23,...作成したいと思います。形式はレコードごとに 1 行です (「/n」で区切られます)。また、出力ファイルの形式もわかりません。推奨される形式を見つけたいだけですb-tree indexApache Spark

b-treeインデックスを作成する通常の方法はhttps://en.wikipedia.org/wiki/B-treeに示されていますが、分散型の並列バージョンをApache Spark.

さらに、 の Wiki では、B-tree既存の大規模なデータ コレクションを表す B ツリーを構築する方法が紹介されています ( https://en.wikipedia.org/wiki/B-treeを参照) 。大きなデータセットの場合、並べ替えにはかなりの時間がかかり、限られたメモリでは完了できないと思います。上記の方法はお勧めですか?

4

1 に答える 1