複数列の PDF ドキュメントの読み取り
iText が PDF を読み取る (ページ コンテンツを文字列変数に抽出する) と、コンテンツは次の方法で修正されます。
reader = new PdfReader(getResources().openRawResource(R.raw.resume1));
original_content = PdfTextExtractor.getTextFromPage(reader, 2);
String sub_content = original_content.trim().replaceAll(" {2,}", " ");
sub_content = sub_content.trim().replaceAll("\n ", "\n");
sub_content = sub_content.replaceAll("(.+)(?<!\\.)\n(?!\\W)", "$1 ");
ドキュメントが1列のみの場合、ドキュメントに複数列がある場合、1行に1つのドキュメントが抽出されます。左と右の列を結合します。
これを START QA ドキュメントからのサンプル PDF として使用しています。
複数列の PDF ドキュメントを読むには?