9

CNN のようなランダムなソースを選んだとしましょう。スクレイピングした記事をキーワードに基づいてカテゴリに自動的に分類したり、ウェブサイトの個々の部分をさまざまなカテゴリ (cnn.com/tech や /entertainment など) にスクレイピングしたりする方が有利でしょうか。2 番目のオプションは簡単には拡張できません。さまざまなソースの URL を手動で構成したくありません。Google ニュースはこの問題にどのように対処していますか?

4

2 に答える 2