次のような 20 GB のファイルがあります。
Read name, Start position, Direction, Sequence
読み取り名は必ずしも一意ではないことに注意してください。
たとえば、私のファイルのスニペットは次のようになります
Read1, 40009348, +, AGTTTTCGTA
Read2, 40009349, -, AGCCCTTCGG
Read1, 50994530, -, AGTTTTCGTA
これらの行を保存できるようにしたい
- 2 番目の値に基づいてファイルをソートし続ける
- ソートされたファイルを反復処理する
これにはデータベースが利用できるようです。
ドキュメントは、 dbmを使用してファイルをソートして反復処理できないことを暗示しているようです。
したがって、 SQLite3で 1) と 2) ができるかどうかは疑問です。ファイルを SQL クエリでソートし、sqlite3 で結果セットを反復処理できることはわかっています。しかし、RAM が 4 GB のコンピュータでメモリ不足にならずにこれを実行できますか?