python - 人気のあるフォーラム/掲示板ソフトウェアをクロールするためのツール

Question

vbulletinボードをクロールするクローラーを書き始めました。ただし、私はWebプログラマーではありません（json apiは実行できますが、実際にはWebクロールではありません）。そのため、クロールするための最良の方法と、使用可能なツールがわかりません。

私はクローラーを作成する能力を超えていますが、基になるHTMLが非常に不規則であることがわかったため、新しいバージョンのvbulletinで変更されるHTMLの構造の犠牲になりたくありません。

pycurlと美しいスープを使ってインターフェースを書いています。しかし、これを行うためのより良い方法はありますか、vbulletinですでに利用可能な優れたクローラーはありますか？（言語は問題ではありません）。メタフォーラムクローラー（複数のフォーラムタイプで動作します）はさらに優れています。

提案できない場合は、経験があれば、基盤となるHTMLの安定性から期待できることから、新しいバージョンのvbulletinがクローラーを壊してしまうことを心配する必要がありますか？

おそらく、vbulletinデータセットを抽出するためのより良い方法がありますか？

score 4 · Accepted Answer

HTML の変更は、Web クロールの継承の問題です。そのため、これは絶対的な最後の手段にすぎません。HTML は毎日変更される可能性があり、保証がないため、クローラーの維持は大変な作業になる可能性があります。

通常検索されるデータは均一であるため、scrapy は優れた選択肢です。 http://doc.scrapy.org/en/0.14/index.html

xpath を使用して要素を選択します。これは、imo を維持するのが比較的簡単です。

vbulletin 固有のスクレーパーがあっても、HTML に依存しているため、勝手に壊れることがあります。vbulletin はプラットフォームであるため、おそらく十分にスクレイピングできます。HTML はバージョンの更新時にのみ変更されると思いますが、それほど頻繁に変更されることはありません。

モバイル API は、必要な機能を提供しますか? https://www.vbulletin.com/forum/content.php/367-API-Overview、これはサイトごとの vbulletin の設定に依存すると思います。

1 に答える 1