java - 優れたパフォーマンスで非常に大きなファイルを処理する

Question

ファイルに 100 万行ある場合、1 行ずつ繰り返す (シーケンシャルアクセス) ことなく、50000 行目に直接ジャンプすることはできません。これは、Googleでいくつかの調査を行った後の私の理解です。

この場合、数秒で行を検索する1TBのデータを持つデータベースはどうですか。1 日の終わりに、DB は独自のメタデータを含むフォーマットされたファイルにも保存されます。

100 万行のレコードのファイルで、このような高速な文字列検索を実装できるでしょうか。このような大規模なデータを処理するには、どのような実装が役立つのでしょうか...

注各行の長さは 10 から 100 まで変化する場合があります。

Javaで可能ですか？

score 8 · Accepted Answer

行がどこにあるかのインデックスを維持する必要があります。このJava Chronicleを実行するライブラリがあります。行にインデックスが付けられると (書き込み時に作成されます)、わずか 100 ns でランダムにアクセスできます。

同じファイル内の TB のデータ、または比較的少数のファイルを処理するように設計されています。何千ものファイルがある場合は、ファイルごとのオーバーヘッドが大きくなるため、別のアプローチを使用する必要があります。

score 2 · Accepted Answer

ファイル構造を二分探索に適合させることができます。各行は一意のマーカー (行自体では使用されないバイトシーケンス) で始まり、その後に行番号が続きます。ラインを探して、

ランダムな場所にジャンプします。
マーカーまで読み上げます。
行番号を読み取ります。
それが探しているものである場合は、完了です。それ以外の場合は、ジャンプする別のランダムな位置を選択します (見つけた行番号に基づいて、現在の位置よりも大きいまたは小さい)。

ラインについて想定できることが多ければ多いほど、ジャンプのランダム性は低くなります。たとえば、ラインの長さの平均から位置を推定できます。推測を改善するために、いくつかの行の場所のキャッシュを持つこともできます。

score 2 · Accepted Answer

1- すべての行を 1 回だけ読み取り
ます。 2- lineNumber (キーとして) と startingPostionOfLine を Map オブジェクトに入れます。

次に、

startingPostionOfLine= map.get(lineNumber) を取得できます。
startingPosition を見つけたら、RandomAccessFile.seek(startingPosition) メソッドでジャンプします。

score 1 · Accepted Answer

行ごとに反復せずに50000行目に直接ジャンプすることはできません

score 1 · Accepted Answer

各行の長さがわかっている場合は、RandomAccessFileを使用してから、必要な行までskipBytesを使用できます。

5 に答える 5