Web Harvesting を使用して PDF からデータを抽出するにはどうすればよいですか? ページ内の関連するすべての PDF の URL を取得していますが、それらの Pdf からデータを抽出できません。Pdfs の URL を抽出するために Web Harvest バージョン 2.0 を使用しています。助けてください。
テキストを取得するために Web ハーベスティングに pdfcommand を組み込むにはどうすればよいですか? バッチファイルを実行せずに行う他の方法はありますか?
Web Harvesting を使用して PDF からデータを抽出するにはどうすればよいですか? ページ内の関連するすべての PDF の URL を取得していますが、それらの Pdf からデータを抽出できません。Pdfs の URL を抽出するために Web Harvest バージョン 2.0 を使用しています。助けてください。
テキストを取得するために Web ハーベスティングに pdfcommand を組み込むにはどうすればよいですか? バッチファイルを実行せずに行う他の方法はありますか?
これにはウェブハーベストだけでは不十分だと思います。結果を得るには、WGET と pdfbox を使用する必要があります。まず、WGET または Web ハーベスト自体を使用して、URL からすべての PDF をフォルダーにダウンロードします。次に、pdfbox コマンドを実行して PDF からテキストを取得します。URL http://pdfbox.apache.org/commandline/から pdfbox に関する知識を得ることができます。これらを順番に実行するバッチ ファイルを作成することもできます。