インターネットで検索を行う必要があるプロジェクトに取り組んでいます (つまり、スタック オーバーフロー)。クローラーからの関連するすべての結果 (URL、テキスト、画像パス) を検索から XML ファイルに取得します。私はpythonでそれを構築しています。この問題にどのように取り組むべきかについて、誰か提案がありますか? Web 全体をスキャンするのではなく、上位の関連する結果 (stackoverflow、2013 年 10 月 8 日、例として python) だけをスキャンします。
2 に答える
0
stackoverflow の場合、API を直接使用できます
https://api.stackexchange.com/docs/questions#fromdate=2013-10-08&todate=2013-10-09&order=desc&sort=activity&tagged=python&filter=default&site=stackoverflowを参照してください
1 秒間に 30 件以上のリクエストを行うことはできません。http://api.stackexchange.com/docs/throttleを参照してください。
于 2013-10-08T17:28:11.837 に答える
0
BeautifulSoup を使用できるようです。そして、このスレッドをチェックしてください。必要なもののようです。BeautifulSoup を使用した XML ドキュメントの作成: StackOverFlow
BeautifulSoupのダウンロード・利用サイトはこちら
使い方はとても簡単です。お役に立てれば。
于 2013-10-08T17:28:19.250 に答える