私は、似たようなヘッダーを持つ大量のドキュメントを読み込むプロジェクトに取り組んでいます。ヘッダーは同じ単語で開始および終了しますが、開始と終了の間の単語は異なる場合があります。これらを見つけるために Pattern と Matcher を使用しようとしていますが、問題があります。これが私のコードです:
Pattern docHeader = Pattern.compile("HEADER[ ]*:[.\\n\\t ]*header end");
したがって、ヘッダーはおおよそ次のようになります。
HEADER:
random junk
random junk
header end
Document information start.
バックエンドで時間を節約するために、テキストのスクラブを開始する前に、すべてのヘッダーを削除しようとしています。しかし、それは私のパターンを決して見つけません。提案?