ランダムな順序でさまざまな数のヘッダー行があり、その後に必要なデータが続くファイルがあります。これは、対応するヘッダーで指定された行数にまたがっています。元Lines: 3
from: blah@blah.com
Subject: foobarhah
Lines: 3
Extra: More random stuff
Foo Bar Lines of Data, which take up
some arbitrary long amount characters on a single line, but no matter how long
they still only take up the number of lines as specified in the header
ファイルの1回の読み取りでそのデータを取得するにはどうすればよいですか?PSデータは20Newsgroupsコーパスからのものです。
編集:私が一度だけ読むことの制約を緩和した場合にのみ機能すると思う簡単な解決策はこれです:
- [最初の読み取り]最初のヘッダーを見つけて
total_num_of_lines
一致させる、Lines:
- [2回目の読み取り]最初の読み取りを破棄して
(total_num_of_lines- header_num_of_lines)
から、ファイルの残りの部分を読み取ります
ただし、1回のパスでデータを読み込む方法はまだわかりません。