私はまだPythonの初心者なので、この質問が正気でないことを願っています。
ウェブスクレイピングソリューションをグーグルで検索すればするほど、混乱します(多くの木を調査しているにもかかわらず、森を見ることができなくなります)。
私は、scrapy mechanize spynnerを含む(ただしこれらに限定されない)多くのプロジェクトに関するドキュメントを読んでいます。
でも、どのハンマーを使おうとしたらいいのかわからない。
クロールしようとしている特定のページがあります(www.schooldigger.com)aspを使用しており、エミュレートする必要のあるJavaスクリプトがいくつかあります。
この種の問題は簡単に対処できないことを私は知っているので、私はどんなガイダンスも望んでいます。
利用可能なオプション(および可能であれば異なるプロジェクト間の関係)に関する一般的な議論に加えて、いくつかの具体的な質問があります
Scrapyを使用する場合、解析する「アイテム」を定義せずに、最初の数百ページ程度をダウンロードする方法はありますか?実際にはWebサイト全体をダウンロードしたくはありませんが、スクレーパーの開発中にどのページがダウンロードされているかを確認できるようにしたいと思います。
mechanize、asp、javascript、私が投稿した質問を参照してくださいが、回答はありません、 https://stackoverflow.com/questions/4249513/emulating-js-in-mechanize
ユーザーがたどるリンクやグラフィカルに解析するアイテムを選択できるようなユーティリティ(ターボギアアプリケーションまたはブラウザプラグイン)を構築してみませんか?私が提案しているのは、解析APIの周りに座るある種のGUIです。そのようなプロジェクトを作成するための技術的な知識があるかどうかはわかりませんが、なぜそれが不可能なのかわかりません。実際、Pythonについて知っていることを考えると、それはかなり実現可能のようです。たぶん、この種のプロジェクトが直面するであろう問題についてのフィードバックはありますか?
最も重要なのは、すべてのWebクローラーが「サイト固有」に構築されているかどうかです。私は自分のコードの車輪の再発明をしているように思えます。(しかし、それはおそらくプログラミングがあまり得意ではないためです)
フル機能のスクレーパーの例はありますか?ドキュメントにはたくさんの例がありますが(これは私が研究してきました)、パッケージの使用法を説明するためだけに、それらはすべて単純さに焦点を当てているようです。もっと詳細で複雑な例の恩恵を受けるかもしれません。
あなたの考えに感謝します。