python - Python Google Web クローラー

Question

インターネットで検索を行う必要があるプロジェクトに取り組んでいます (つまり、スタックオーバーフロー)。クローラーからの関連するすべての結果 (URL、テキスト、画像パス) を検索から XML ファイルに取得します。私はpythonでそれを構築しています。この問題にどのように取り組むべきかについて、誰か提案がありますか? Web 全体をスキャンするのではなく、上位の関連する結果 (stackoverflow、2013 年 10 月 8 日、例として python) だけをスキャンします。

score 0 · Accepted Answer

stackoverflow の場合、API を直接使用できます

例: https://api.stackexchange.com/2.1/questions?fromdate=1381190400&todate=1381276800&order=desc&sort=activity&tagged=python&site=stackoverflow

https://api.stackexchange.com/docs/questions#fromdate=2013-10-08&todate=2013-10-09&order=desc&sort=activity&tagged=python&filter=default&site=stackoverflowを参照してください

1 秒間に 30 件以上のリクエストを行うことはできません。http://api.stackexchange.com/docs/throttleを参照してください。

score 0 · Accepted Answer

BeautifulSoup を使用できるようです。そして、このスレッドをチェックしてください。必要なもののようです。BeautifulSoup を使用した XML ドキュメントの作成: StackOverFlow

BeautifulSoupのダウンロード・利用サイトはこちら

使い方はとても簡単です。お役に立てれば。

python - Python Google Web クローラー

2 に答える 2

Related

Reference