などの数字のセットがあり、を使用してそれらの を1,4,10,23,...
作成したいと思います。形式はレコードごとに 1 行です (「/n」で区切られます)。また、出力ファイルの形式もわかりません。推奨される形式を見つけたいだけですb-tree index
Apache Spark
b-tree
インデックスを作成する通常の方法はhttps://en.wikipedia.org/wiki/B-treeに示されていますが、分散型の並列バージョンをApache Spark
.
さらに、 の Wiki では、B-tree
既存の大規模なデータ コレクションを表す B ツリーを構築する方法が紹介されています ( https://en.wikipedia.org/wiki/B-treeを参照) 。大きなデータセットの場合、並べ替えにはかなりの時間がかかり、限られたメモリでは完了できないと思います。上記の方法はお勧めですか?