非構造化PDFドキュメント(手紙など)から住所情報を抽出する作業に役立つライブラリ/ツールキットはありますか?そうでない場合、このタスクにどのようにアプローチしますか?
オープンソースのPDFライブラリを使用して正規表現パターンで情報を検索することを考えましたが、この単純なアプローチでアドレスを確実に特定できるかどうかはわかりません。残念ながら、私が参加したデータマイニングコースはテキストマイニングには触れておらず、高度に構造化されたデータのみを扱っていました。自然言語処理に取り組んでいる人が、便利なライブラリやツールキットを知っているかもしれません。