質問があります。PDFドキュメントから構造化テキストを抽出しようとしています。通常、pdf には構造がないため、ラテックスで生成された pdf の解析を開始できると考えました。
PDFの解析に使用できるラテックスで生成されたPDFにパターンがあることを知っていますか?
PDF ドキュメントからテキストを解析するには、PDF Boxをご覧ください。または、複数のドキュメント タイプの解析を提供するApache Tikaを標準インターフェイスで使用することもできます (やり過ぎかもしれません)。これを手動で行うことはお勧めしません。
商用ソリューション Infty Reader
http://www.sciaccess.net/en/InftyReader/index.html
試用モードでは、認識は毎回 1 ページに制限され、1 日あたり 5 ページに制限されます。
端末と
迅速で汚い解決策であり、おそらく多くの試行錯誤が必要です。
あなたのpdfは解析可能でなければなりません
pdftotext 'your-file.pdf' your-file.txt
PDFにパターンが必要です(すべてのスライドの著作権など)
sed -n '/<PATTERN>/{n;n;n;p}' your-file.txt | awk '!x[$0]++' > your-file-structure.txt
{n;n;n;p}
現在印刷しているため、変更しますp
n;n;n
awk '!x[$0]++'
重複を削除します