問題タブ [lxml]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Pythonで不正な形式のHTMLを解析する方法
解析されたHTMLドキュメントのDOMツリーを参照する必要があります。
lxmlで文字列を解析する前にuTidyLibを使用しています
a = tidy.parseString(html_code、options)dom = etree.fromstring(str(a))
エラーが発生することがありますが、tidylibは不正な形式のhtmlを修復できないようです。
エラーが発生せずにすべてのHTMLファイルを解析するにはどうすればよいですか(修復できないファイルの一部のみを解析します)?
python - lxmlを使用してプログラムでコメント要素をインスタンス化するにはどうすればよいですか?
lxmlを使用してプログラムでHTMLを作成しているので、出力にカスタムコメントを含める必要があります。lxmlにはコメントに対処するためのコードがありますが(既存のHTMLコードを解析するときにインスタンス化できます)、プログラムでインスタンス化する方法を見つけることができません。
誰か助けてもらえますか?
python - lxml のパーサーがルート要素の外側の空白を保持するようにするにはどうすればよいですか?
lxml を使用して既存の XML ドキュメントを操作していますが、差分ノイズをできるだけ少なくしたいと考えています。残念ながら、デフォルトではlxml.etree.XMLParserはドキュメントのルート要素の前後の空白を保持しません:
これは lxml を使用して可能ですか? 基礎となる libxml2 でサポートされていますか?
python - lxml の etree で Doctype を作成する
LXML の etree で生成している XML ドキュメントに Doctype を追加したいと考えています。
ただし、doctype を追加する方法がわかりません。文字列のハードコーディングと連結はオプションではありません。
PIがetreeに追加される方法に沿って何かを期待していました:
しかし、それは私にとってはうまくいきません。lxmlを使用してxmlドキュメントにaを追加するには?
python - ElementTree/lxmlを使用してテキスト文字列の親タグを検索する
テキストの文字列を取得し、段落/ドキュメントの残りのテキストをhtmlから「抽出」しようとしています。
私の現在のアプローチは、lxmlで解析されたhtml内の文字列の「親タグ」を見つけようとしています。(この問題に取り組むためのより良い方法を知っているなら、私はすべての耳です!)
たとえば、ツリーで「TEXT STRING HERE」を検索し、「p」タグを返します。(HTMLの正確なレイアウトは事前にわからないことに注意してください)
ご協力いただきありがとうございます!
python - cssselectorで奇妙なアイテムを取得するlxml
私のテストドキュメントには、「item」というラベルの付いたクラスがいくつかあります。現在、次を使用して、このクラスでhtmlファイル内のすべてを解析しています
JQueryを使用したjavascriptでこのように、すべての奇妙なアイテムを選択したいと思います
逐語的に試してみると、次のエラーが表示されます
lxml.cssselect.ExpressionError: 疑似クラス Symbol(u'odd', 6) が不明です
これを自分で実装するのは簡単なことだと思いますが、これが lxml でネイティブにサポートされているかどうか疑問に思っていました。
.net - IronPython で lxml を動作させるにはどうすればよいですか?
lxml に大きく依存するコードを CPython アプリケーションから IronPython に移植する必要があります。
lxml は非常に Pythonic であり、IronPython で引き続き使用したいと考えていますが、C 拡張である libxslt と libxml2 に依存しています。
IronPython またはこれらの C 拡張依存関係を持たないバージョンの lxml で lxml を許可する回避策を知っている人はいますか?
python - lxml で etree.tostring のデフォルトのインデントを変更する
使用してきれいに印刷しているXMLドキュメントがありますlxml.etree.tostring
デフォルトのインデント レベルはスペース 2 つですが、これをスペース 4 つに変更したいと考えています。tostring
関数にはこれに対する引数はありません。lxmlでこれを簡単に行う方法はありますか?
python - MacPortsやFinkを使用せずにOSXLeopardにlxmlをインストールするにはどうすればよいですか?
私はこれを試し、過去に何度も問題に遭遇しました。MacPortsやFinkを使わずにOSXにlxmlをインストールするためのレシピを持っている人はいますか?
できれば、各依存関係をダウンロードして構築するための完全な1-2-3ステップを使用してください。
python - libxml2 および libxslt に依存する Python パッケージ
以外lxml
に、libxml2 と libxslt に依存する Python パッケージを知っている人はいますか?