かなりユニークな質問があると思います。または、少なくとも同様の問題の解決策を見つけることができませんでした。
Web サイトをクロールし、各ページで特定のテキスト文字列を検索したいと考えています。テキスト文字列が見つかった場合、そのページにリンクされている特定の種類 (PDF) のすべてのファイルをダウンロードしたいと考えています。
完全な回答をいただければ幸いですが、これを達成するために必要なソフトウェアまたはフレームワークの方向性を教えていただければ幸いです。
かなりユニークな質問があると思います。または、少なくとも同様の問題の解決策を見つけることができませんでした。
Web サイトをクロールし、各ページで特定のテキスト文字列を検索したいと考えています。テキスト文字列が見つかった場合、そのページにリンクされている特定の種類 (PDF) のすべてのファイルをダウンロードしたいと考えています。
完全な回答をいただければ幸いですが、これを達成するために必要なソフトウェアまたはフレームワークの方向性を教えていただければ幸いです。
私は urllib とpyQuery (jQuery に類似) で Python を使用していますが、Python のScrapyのようなクロールとスクレイピングのための特別なフレームワークもあります。
ウェブ スクレイピングを検索します。