java - 正規表現に基づいてPDFファイルからテキストを抽出しますか？

Question

300ページのPDFファイルがあり、各ページのセットには、社会保障番号などの個人の識別情報が含まれています。

1〜4ページが社会保障番号987-65-4320用で、5〜6ページが987-65-4321用であるとします。

最初の社会保障番号の位置から2番目 の社会保障番号の位置まで、最初の従業員のすべての情報を抽出して、新しいpdfファイルに保存したいと思います。

私が見たすべての例は、次のような特定の基準に基づいてではなく、PDFファイルからすべてのテキストを抽出することに関するものでした。

PDFファイルからテキストを抽出します

それを達成する方法を教えてください。

score 1 · Accepted Answer

これは自動化された手法ではありませんが、テキストを取得して（PDFをコピーしてテキストファイルに貼り付けることができます）、正規表現を使用して必要な情報を見つけることができますか？

Javaでは、解析の一部は次のようになります。

// Matches 3 digits, a dash, 2 digits, a dash, and four digits, and then all text
// until it finds another SSN
String text = "987-65-4320 some info 987-65-4321 other \ninfo";
Pattern p = Pattern.compile("(\\d{3}-\\d{2}-\\d{4})((?:.(?!\\d{3}-\\d{2}-\\d{4}))*)", Pattern.DOTALL);
Matcher m = p.matcher(text);
while (m.find())
    System.out.println(m.group(1) + ": " + m.group(2));

しかし、あなたが保存したい情報を見ずに、私はあなたがそれを手に入れるのを手伝うことができませんでした。

新しいPDFが必要な場合は、その情報をMicrosoftWordまたはGoogleDocsに入れて、PDFを保存します。

あるいは、さまざまな従業員から「すべての情報を抽出」するだけの場合は、一部のページを削除して元のPDFのコピーを作成するのが効果的でしょうか。それを可能にするウェブサイトを見たことがありますが、Chrome（問題なくローカルPDFを開くために使用できます）の印刷ダイアログでは、ページの範囲を指定してPDFとして保存できます。

java - 正規表現に基づいてPDFファイルからテキストを抽出しますか？

1 に答える 1

Related

Reference