問題タブ [lxml]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
7597 参照

python - Pythonで不正な形式のHTMLを解析する方法

解析されたHTMLドキュメントのDOMツリーを参照する必要があります。

lxmlで文字列を解析する前にuTidyLibを使用しています

a = tidy.parseString(html_code、options)dom = etree.fromstring(str(a))

エラーが発生することがありますが、tidylibは不正な形式のhtmlを修復できないようです。

エラーが発生せずにすべてのHTMLファイルを解析するにはどうすればよいですか(修復できないファイルの一部のみを解析します)?

0 投票する
1 に答える
1474 参照

python - lxmlを使用してプログラムでコメント要素をインスタンス化するにはどうすればよいですか?

lxmlを使用してプログラムでHTMLを作成しているので、出力にカスタムコメントを含める必要があります。lxmlにはコメントに対処するためのコードがありますが(既存のHTMLコードを解析するときにインスタンス化できます)、プログラムでインスタンス化する方法を見つけることができません。

誰か助けてもらえますか?

0 投票する
2 に答える
1525 参照

python - lxml のパーサーがルート要素の外側の空白を保持するようにするにはどうすればよいですか?

lxml を使用して既存の XML ドキュメントを操作していますが、差分ノイズをできるだけ少なくしたいと考えています。残念ながら、デフォルトではlxml.etree.XMLParserはドキュメントのルート要素の前後の空白を保持しません:

これは lxml を使用して可能ですか? 基礎となる libxml2 でサポートされていますか?

0 投票する
3 に答える
14884 参照

python - lxml の etree で Doctype を作成する

LXML の etree で生成している XML ドキュメントに Doctype を追加したいと考えています。

ただし、doctype を追加する方法がわかりません。文字列のハードコーディングと連結はオプションではありません。

PIがetreeに追加される方法に沿って何かを期待していました:

しかし、それは私にとってはうまくいきません。lxmlを使用してxmlドキュメントにaを追加するには?

0 投票する
1 に答える
1633 参照

python - ElementTree/lxmlを使用してテキスト文字列の親タグを検索する

テキストの文字列を取得し、段落/ドキュメントの残りのテキストをhtmlから「抽出」しようとしています。

私の現在のアプローチは、lxmlで解析されたhtml内の文字列の「親タグ」を見つけようとしています。(この問題に取り組むためのより良い方法を知っているなら、私はすべての耳です!)

たとえば、ツリーで「TEXT STRING HERE」を検索し、「p」タグを返します。(HTMLの正確なレイアウトは事前にわからないことに注意してください)

ご協力いただきありがとうございます!

0 投票する
1 に答える
487 参照

python - cssselectorで奇妙なアイテムを取得するlxml

私のテストドキュメントには、「item」というラベルの付いたクラスがいくつかあります。現在、次を使用して、このクラスでhtmlファイル内のすべてを解析しています

JQueryを使用したjavascriptでこのように、すべての奇妙なアイテムを選択したいと思います

逐語的に試してみると、次のエラーが表示されます

lxml.cssselect.ExpressionError: 疑似クラス Symbol(u'odd', 6) が不明です

これを自分で実装するのは簡単なことだと思いますが、これが lxml でネイティブにサポートされているかどうか疑問に思っていました。

0 投票する
2 に答える
2341 参照

.net - IronPython で lxml を動作させるにはどうすればよいですか?

lxml に大きく依存するコードを CPython アプリケーションから IronPython に移植する必要があります。

lxml は非常に Pythonic であり、IronPython で引き続き使用したいと考えていますが、C 拡張である libxslt と libxml2 に依存しています。

IronPython またはこれらの C 拡張依存関係を持たないバージョンの lxml で lxml を許可する回避策を知っている人はいますか?

0 投票する
2 に答える
7186 参照

python - lxml で etree.tostring のデフォルトのインデントを変更する

使用してきれいに印刷しているXMLドキュメントがありますlxml.etree.tostring

デフォルトのインデント レベルはスペース 2 つですが、これをスペース 4 つに変更したいと考えています。tostring関数にはこれに対する引数はありません。lxmlでこれを簡単に行う方法はありますか?

0 投票する
15 に答える
27080 参照

python - MacPortsやFinkを使用せずにOSXLeopardにlxmlをインストールするにはどうすればよいですか?

私はこれを試し、過去に何度も問題に遭遇しました。MacPortsやFinkを使わずにOSXにlxmlをインストールするためのレシピを持っている人はいますか?

できれば、各依存関係をダウンロードして構築するための完全な1-2-3ステップを使用してください。

0 投票する
1 に答える
340 参照

python - libxml2 および libxslt に依存する Python パッケージ

以外lxmlに、libxml2 と libxslt に依存する Python パッケージを知っている人はいますか?