Java用のpdfboxを使用してpdfからファイルをスクレイピングしました。出力は次のとおりです。
Tribhuvan University
Institute of Engineering
Entrance Examination Board
BE/BArch Entrance Examination 2070
Pass List
ROLLNO NAME GENDER DISTRICT Percent Rank
1001 AADARSH DEO MALE Saptari 51.429 3442
1002 AADARSH MALLA MALE Bajhang 43.429 5714
1003 AADARSHA KHANAL MALE Rupandehi 40.571 6709
リストは、各ページ [150 ページ] の最初の 6 行の繰り返しで続きます。私がする必要があるのは、Java の整数値で始まる行を選択し、整数値で始まるリストを含む新しいファイルを作成することです。