0

約 10,000 個の pdf ファイル (conf 論文) があり、これらの論文の特定のセクション (実験セクションなど) からテキストを抽出してファイルに保存する必要があります。これを行うのに役立つJavaツールまたはPythonツールを知っている人はいますか?

前もって感謝します

アユシュ

4

3 に答える 3

2

投稿する前に質問を調べましたか? 私はグーグルでこのApacheプロジェクトを見つけました:http://pdfbox.apache.org/

于 2013-04-22T17:25:41.310 に答える
1

Javaの場合:iTextを見てください

Pythonの場合、PDFMinerを使用します

于 2013-04-22T17:27:47.207 に答える
0

これらは学術論文であるため、lapdftextも実際に確認する必要があります。

LA-PDFText は、PDF ベースの研究記事から正確なテキストを抽出するためのシステム (および必要に応じてパフォーマンスを向上させるためのインターフェイス) です。このシステムはオープンソースであり、開発者がカスタマイズできるルールを使用して主要な研究記事からテキストを抽出するための単純なベースライン機能を提供します。

于 2013-11-15T02:28:42.937 に答える