私はこれまで RegEx を使用したことがなく、特に Web スクレイピングや html には良くないことに誰もが同意しているようですが、それなしで私の小さな課題を解決する方法がよくわかりません。
24 の異なる Web ページを開く小さな Python スクレーパーがあります。各 Web ページには、他の Web ページへのリンクがあります。必要なリンクを取得する簡単なソリューションを作成したいのですが、ウェブページは多少似ていますが、必要なリンクはそうではありません。
URL 間の唯一の共通点は、特定の文字列のようです: 'uge' または 'Uge' (uge はデンマーク語で週を意味し、週番号は毎週変わります)。URL に共通の ID があるか、毎回正しい ID をターゲットにするために使用できるようなものではありません。
RegExを使用してWebページを調べ、「uge」または「uge」を含むすべてのURLを見つけて開くことができると思います。しかし、BSを使用してそれを行う方法はありますか?そして、RegExを使用してそれを行うと、可能な解決策はどのようになりますか?
たとえば、異なる Web ページで取得したい 2 つの URL を次に示します。
http://www.domstol.dk/KobenhavnsByret/retslister/Pages/Uge45-Tvangsauktioner.aspx
http://www.domstol.dk/esbjerg/retslister/Pages/Straffesageruge32.aspx