4

質問があります。PDFドキュメントから構造化テキストを抽出しようとしています。通常、pdf には構造がないため、ラテックスで生成された pdf の解析を開始できると考えました。

PDFの解析に使用できるラテックスで生成されたPDFにパターンがあることを知っていますか?

4

2 に答える 2

4

PDF ドキュメントからテキストを解析するには、PDF Boxをご覧ください。または、複数のドキュメント タイプの解析を提供するApache Tikaを標準インターフェイスで使用することもできます (やり過ぎかもしれません)。これを手動で行うことはお勧めしません。

于 2012-11-08T15:11:41.613 に答える
0

商用ソリューション Infty Reader

http://www.sciaccess.net/en/InftyReader/index.html

試用モードでは、認識は毎回 1 ページに制限され、1 日あたり 5 ページに制限されます。

端末と

  • 迅速で汚い解決策であり、おそらく多くの試行錯誤が必要です。

    1. あなたのpdfは解析可能でなければなりません

      • pdftotext 'your-file.pdf' your-file.txt
    2. PDFにパターンが必要です(すべてのスライドの著作権など)

      • sed -n '/<PATTERN>/{n;n;n;p}' your-file.txt | awk '!x[$0]++' > your-file-structure.txt
      • パターンの後に次の次の次の行を{n;n;n;p}現在印刷しているため、変更しますpn;n;n
      • awk '!x[$0]++'重複を削除します
于 2014-07-07T13:55:37.067 に答える