4

非構造化PDFドキュメント(手紙など)から住所情報を抽出する作業に役立つライブラリ/ツールキットはありますか?そうでない場合、このタスクにどのようにアプローチしますか?

オープンソースのPDFライブラリを使用して正規表現パターンで情報を検索することを考えましたが、この単純なアプローチでアドレスを確実に特定できるかどうかはわかりません。残念ながら、私が参加したデータマイニングコースはテキストマイニングには触れておらず、高度に構造化されたデータのみを扱っていました。自然言語処理に取り組んでいる人が、便利なライブラリやツールキットを知っているかもしれません。

4

2 に答える 2

1

pdfを読む(つまりテキストに変換する)にはhttp://pdfbox.apache.orgを、投稿アドレスの文法を書くにはhttp://code.google.com/p/graph-expression/をお勧めします。

于 2011-07-06T18:39:55.647 に答える
0

pdf2xmlまたはその他のPDFライブラリ/ツールキットを使用し、お気に入りの検索エンジンを使用して「住所抽出」を検索し、検索をファイルタイプpdfに制限します。

于 2011-07-06T09:39:26.487 に答える