python - Pythonでscrapyを使用してファイルホスティングWebサイトをスクロールする方法は?

Question

filefactory.com のようなファイルホスティング Web サイトをスクロールする方法を教えてくれる人はいますか? ホストされているすべてのファイルをダウンロードするのではなく、利用可能なすべてのファイルをスクレイピーでインデックス付けするだけです。

スクレイピーのスパイダークラスに関するチュートリアルとドキュメントを読みました。Web サイトのメインページのみを最初の URL として指定すると、サイト全体をスクロールすることはありません。それが私が考えている問題であり、どんな助けもいただければ幸いです!

score 3 · Accepted Answer

2つアドバイスがあります。1 つ目は、Scrapy を正しく使用していることを確認することであり、2 つ目は、より多くの URL のサンプルを収集するための最良の方法に関するものです。

初め：

CrawlSpiderを使用して Web サイトをクロールしていることを確認してください。これは、クロールされたページのすべてのリンクを取得し、それらを Scrapy がクロールするための新しいリクエストに変換したい場合に、ほとんどの人が使用するものです。クロールスパイダーの詳細については、http://doc.scrapy.org/en/latest/topics/spiders.htmlを参照してください。

クロールスパイダーを正しく構築すれば、各ページにあるすべてのリンクの大部分を見つけてクロールできるはずです。

ただし、ダウンロードリンクを含むページ自体が Scrapy が遭遇したページにリンクされていない場合、Scrapy がそれらについて知る方法はありません。

これに対抗する 1 つの方法は、Scrapy が見つけにくいことがわかっている領域で、Web サイトの複数のエントリポイントを使用することです。これを行うには、変数に複数の初期 URL を入れstart_urlsます。

第二に

これはすでにあなたが行っていることである可能性が高いため、次のアドバイスをします。Google にアクセスしてと入力site:www.filefactory.comすると、Google が www.filefactory.com に対してインデックスを作成したすべてのページへのリンクが表示されます。site:filefactory.com正規化の問題があるため、必ず確認してください。これを行ったところ、約 600,000 ページのインデックスが作成されていることがわかりました。すべきことは、Google をクロールして、これらのインデックス付き URL をすべて収集し、データベースに保存することです。次に、これらすべてを使用して、FileFactory.com Web サイトでさらに検索を開始します。

また

Filefactory.com のメンバーシップを持っている場合は、scrapy をプログラムしてフォームを送信したり、サインインしたりすることもできます。これを行うと、さらにアクセスできるようになる可能性があります。

python - Pythonでscrapyを使用してファイルホスティングWebサイトをスクロールする方法は?

1 に答える 1

Related

Reference