1 つの Web サイトから記事やその他のコンテンツを取得したいと考えています。クローラーのアイデアを思いついたので、離れたページを開いて、正規表現などに従ってテキスト部分を取得できると思います。私が疑問に思っているのは、単一のページ (またはページネーション) だけでなく、Web サイト全体を検索し、要素ごとに 1 つずつクローラーを実行する必要がなく、その過程で既存の URL を忘れないようにする方法です。
これは1回限りのものであるため、これをきれいにする必要はないことに注意してください。私が契約している Web エージェンシーは、私自身のデータベースのダンプに対して莫大な金額を請求しようとしています。それを回避する方法がないため、迅速な回避策を見つける必要があります。作業を開始するために、これについて説明してもらえますか?
ありがとうございました。