vbulletinボードをクロールするクローラーを書き始めました。ただし、私はWebプログラマーではありません(json apiは実行できますが、実際にはWebクロールではありません)。そのため、クロールするための最良の方法と、使用可能なツールがわかりません。
私はクローラーを作成する能力を超えていますが、基になるHTMLが非常に不規則であることがわかったため、新しいバージョンのvbulletinで変更されるHTMLの構造の犠牲になりたくありません。
pycurlと美しいスープを使ってインターフェースを書いています。しかし、これを行うためのより良い方法はありますか、vbulletinですでに利用可能な優れたクローラーはありますか?(言語は問題ではありません)。メタフォーラムクローラー(複数のフォーラムタイプで動作します)はさらに優れています。
提案できない場合は、経験があれば、基盤となるHTMLの安定性から期待できることから、新しいバージョンのvbulletinがクローラーを壊してしまうことを心配する必要がありますか?
おそらく、vbulletinデータセットを抽出するためのより良い方法がありますか?