指定されたWebページの数値を読み取るだけのコンテンツ収集プログラムを構築し、後で分析するためにそのデータを保存する必要があります。リンクや関連データを検索するのに必要ではありません。毎日コンテンツが変更されるWebサイトからすべてのデータを収集するだけです。
私はプログラミングの経験がほとんどないので、これが学習に役立つことを願っています。速度は大きな問題ではありません。クローラーは1日に最大で4000ページをロードする必要があると私は推測しています。
ありがとう。
編集:データを収集しているWebサイトがクローラーから保護されているかどうかを事前にテストする方法はありますか?