2つアドバイスがあります。1 つ目は、Scrapy を正しく使用していることを確認することであり、2 つ目は、より多くの URL のサンプルを収集するための最良の方法に関するものです。
初め:
CrawlSpider
を使用して Web サイトをクロールしていることを確認してください。これは、クロールされたページのすべてのリンクを取得し、それらを Scrapy がクロールするための新しいリクエストに変換したい場合に、ほとんどの人が使用するものです。クロール スパイダーの詳細については、http://doc.scrapy.org/en/latest/topics/spiders.htmlを参照してください。
クロール スパイダーを正しく構築すれば、各ページにあるすべてのリンクの大部分を見つけてクロールできるはずです。
ただし、ダウンロード リンクを含むページ自体が Scrapy が遭遇したページにリンクされていない場合、Scrapy がそれらについて知る方法はありません。
これに対抗する 1 つの方法は、Scrapy が見つけにくいことがわかっている領域で、Web サイトの複数のエントリ ポイントを使用することです。これを行うには、変数に複数の初期 URL を入れstart_urls
ます。
第二に
これはすでにあなたが行っていることである可能性が高いため、次のアドバイスをします。Google にアクセスして と入力site:www.filefactory.com
すると、Google が www.filefactory.com に対してインデックスを作成したすべてのページへのリンクが表示されます。site:filefactory.com
正規化の問題があるため、必ず確認してください。これを行ったところ、約 600,000 ページのインデックスが作成されていることがわかりました。すべきことは、Google をクロールして、これらのインデックス付き URL をすべて収集し、データベースに保存することです。次に、これらすべてを使用して、FileFactory.com Web サイトでさらに検索を開始します。
また
Filefactory.com のメンバーシップを持っている場合は、scrapy をプログラムしてフォームを送信したり、サインインしたりすることもできます。これを行うと、さらにアクセスできるようになる可能性があります。