webharvest - Web ハーベスティングを使用して Pdf からデータを抽出する

Question

Web Harvesting を使用して PDF からデータを抽出するにはどうすればよいですか? ページ内の関連するすべての PDF の URL を取得していますが、それらの Pdf からデータを抽出できません。Pdfs の URL を抽出するために Web Harvest バージョン 2.0 を使用しています。助けてください。

テキストを取得するために Web ハーベスティングに pdfcommand を組み込むにはどうすればよいですか? バッチファイルを実行せずに行う他の方法はありますか?

score 0 · Accepted Answer

これにはウェブハーベストだけでは不十分だと思います。結果を得るには、WGET と pdfbox を使用する必要があります。まず、WGET または Web ハーベスト自体を使用して、URL からすべての PDF をフォルダーにダウンロードします。次に、pdfbox コマンドを実行して PDF からテキストを取得します。URL http://pdfbox.apache.org/commandline/から pdfbox に関する知識を得ることができます。これらを順番に実行するバッチファイルを作成することもできます。

webharvest - Web ハーベスティングを使用して Pdf からデータを抽出する

1 に答える 1

Related

Reference