私は研究のためにいくつかのウェブサイトからいくつかのコンテンツをスクレイピングしようとしています。Pythonとウェブスクレイピングを使用するとプロセスがスピードアップすることを期待していました。私は以前、ある小さなプロジェクトでxmlをある形式から別の形式に変換するためにPythonと美しいスープを使用しました。
質問する
141 次
1 に答える
3
抽出するデータの構造がどの程度冗長であるかに応じて、いくつかのツールを使用できます。
- 常に同じ DOM 構造に格納されているデータの抽出を探している場合、Scrapyがその仕事を行うことができます。
- データがまばらで、さまざまな場所に保存されている場合は、BeautfulSoup4またはlxmlが役立つ可能性があります。
- データが何らかの JS コードによって生成されている場合は、Seleniumを見てください。
以下に、役に立つと思われるリソースをいくつか示します。
于 2012-07-29T08:13:59.347 に答える