約 10,000 個の pdf ファイル (conf 論文) があり、これらの論文の特定のセクション (実験セクションなど) からテキストを抽出してファイルに保存する必要があります。これを行うのに役立つJavaツールまたはPythonツールを知っている人はいますか?
前もって感謝します
アユシュ
投稿する前に質問を調べましたか? 私はグーグルでこのApacheプロジェクトを見つけました:http://pdfbox.apache.org/
Javaの場合:iTextを見てください
Pythonの場合、PDFMinerを使用します
これらは学術論文であるため、lapdftextも実際に確認する必要があります。
LA-PDFText は、PDF ベースの研究記事から正確なテキストを抽出するためのシステム (および必要に応じてパフォーマンスを向上させるためのインターフェイス) です。このシステムはオープンソースであり、開発者がカスタマイズできるルールを使用して主要な研究記事からテキストを抽出するための単純なベースライン機能を提供します。