string - Web サイトをクロールし、ページでのテキスト文字列の出現に基づいて、特定の種類のすべてのファイルをダウンロードします

Question

かなりユニークな質問があると思います。または、少なくとも同様の問題の解決策を見つけることができませんでした。

Web サイトをクロールし、各ページで特定のテキスト文字列を検索したいと考えています。テキスト文字列が見つかった場合、そのページにリンクされている特定の種類 (PDF) のすべてのファイルをダウンロードしたいと考えています。

完全な回答をいただければ幸いですが、これを達成するために必要なソフトウェアまたはフレームワークの方向性を教えていただければ幸いです。

score 1 · Accepted Answer

私は urllib とpyQuery (jQuery に類似) で Python を使用していますが、Python の Scrapyのようなクロールとスクレイピングのための特別なフレームワークもあります。

ウェブスクレイピングを検索します。

3 に答える 3