python - BeautifulSoup よりも lxml を使用すると、スパイダーをより細かく制御できますか?

Question

クモとクローラーの作り方を学んでいます。このスパイダリングは私の情熱であり、私はそれを長い間行うつもりです. 解析には BeautifulSoup を使用することを考えています。しかし、lxml を使用すると、より制御できるようになると言う人もいます。

今、私はあまり知りません。しかし、lxml を使用するのが難しくても、一生懸命働く準備ができています。しかし、それが私に完全なコントロールを与えるなら、私はそれの準備ができています.

それで、あなたの意見は何ですか？

score 3 · Accepted Answer

この質問はあまり意味がないと思います。あなたの目標が正確に何であるかをもっと説明する必要があります。 BeautifulSoupとlxmlは、大部分が同じことを行う 2 つのツールですが、機能と API の哲学と構造が異なります。

「どちらがコントロールしやすいか」ではなく、「その仕事に適したツールはどれか」という問題です。私は両方を使用します。BeautifulSoupより自然だと思うので、私はこの構文を好みますlxmlが、変数に基づいてその場で未知の量を解析しようとするとき、たとえば、変数値を含む XPath 文字列を生成し、それを使用するときは、この構文の方が優れていることがわかります。さまざまなページから特定の要素を抽出します。

本当に、それはあなたが何をしようとしているかに依存します。

TL;DR

BeautifulSoupより簡単に自然に使用できますが、lxml最終的にはより強力で用途が広いと思います。また、lxmlスピードコンテストで優勝することも間違いありません。

python - BeautifulSoup よりも lxml を使用すると、スパイダーをより細かく制御できますか?

1 に答える 1

TL;DR

Related

Reference