java - 多くのファイルの PDF からテキストを自動的に抽出する

Question

約 10,000 個の pdf ファイル (conf 論文) があり、これらの論文の特定のセクション (実験セクションなど) からテキストを抽出してファイルに保存する必要があります。これを行うのに役立つJavaツールまたはPythonツールを知っている人はいますか?

前もって感謝します

アユシュ

score 2 · Accepted Answer

投稿する前に質問を調べましたか? 私はグーグルでこのApacheプロジェクトを見つけました：http://pdfbox.apache.org/

score 1 · Accepted Answer

1

Javaの場合：iTextを見てください

Pythonの場合、PDFMinerを使用します

于 2013-04-22T17:27:47.207 に答える

score 0 · Accepted Answer

これらは学術論文であるため、lapdftextも実際に確認する必要があります。

LA-PDFText は、PDF ベースの研究記事から正確なテキストを抽出するためのシステム (および必要に応じてパフォーマンスを向上させるためのインターフェイス) です。このシステムはオープンソースであり、開発者がカスタマイズできるルールを使用して主要な研究記事からテキストを抽出するための単純なベースライン機能を提供します。

java - 多くのファイルの PDF からテキストを自動的に抽出する

3 に答える 3

Related

Reference