python - 正規表現を使用するか、DOM/文字列操作のみを使用する必要がありますか?

Question

いつどちらを使用する必要があるのかわからないことがあります。私は通常、あらゆる種類のものを Python で解析しますが、この質問は HTML の解析に焦点を当てたいと思います。

個人的には、2 つ以上の通常の要素 (たとえば、ニュースリストのタイトルと本文) を解析する必要がある場合、DOM 操作は非常に便利だと思います。

ただし、正規表現を作成したり、単に文字列を操作して目的の値を取得しようとしたりすることが明確ではない状況に陥っていました。特定の架空の例: アルバムの写真の総数を取得する必要があり、これを取得する唯一の方法は、次の方法を使用して写真の数を解析することです。

(190 の 1)

したがって、HTML ドキュメント全体から '190' を取得する必要があります。そのための正規表現を書くことはできますが、HTML を解析するための正規表現は正確には最適ではないか、それが私がいつも理解していることです。一方、DOM を使用することは、単純な要素であるため、私には圧倒的に思えます。文字列操作が最善の方法のようですが、このような場合にそのように進めるべきかどうかはよくわかりません。

Python (またはその他の言語) を使用して、HTML ドキュメントからこの種の単一要素を解析する方法を教えてください。

python - 正規表現を使用するか、DOM/文字列操作のみを使用する必要がありますか?

2 に答える 2

Related

Reference