問題タブ [lxml]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - lxml Unicode 文字の変更
lxml を使用して xml ファイルを読み取り、いくつかの詳細を変更しています。ただし、実行すると、次のように lxml を使用してファイルを読み取ってから再度書き出すだけでも、次のようになります。
クイーンズライクが に変換されていることがわかりますQueensrÿche
。誰でもこれを修正する方法を知っていますか?
python - Google App Engine で Python lxml を使用することは可能ですか?
Google App Engine で Python lxml を使用できますか? (または、美しいスープを使用する必要がありますか?)
Beautiful Soup を使い始めましたが、遅いようです。他の Web サイトからデータを「スクリーン スクレイピング」して、ある種の「マッシュアップ」を作成するというアイデアを試し始めたところです。
python - lxml[.objectify] documentElement タグ名
それぞれが特定の documentRoot タグを持つ XML 形式のデータ パケットを受信しています。ルート タグ名に基づいて、これらのパケットを処理する特殊なメソッドを委任したいと考えています。これは、次のような xml.dom.minidom で機能しました。
ただし、よりpythonicなlxml.objectifyを使用して、(ここではなく、コードの他の部分で)物事を簡素化したい.
問題は、lxml、できれば厳密に lxml.objectify で「root.tagName」を取得する方法がわからないことです。何か案は?
python - lxml XSLT pretty_print と strip-space を組み合わせる
大まかな XML を整理しているので、XSL 変換の lxml 出力で etree.tostring() の呼び出しに pretty_print = True を設定しました。ただし、元の入力からいくつかの不要な空白ノードが残っていたので、追加しました
...しかし、きれいな印刷を無視して、すべての空白を完全に折りたたみます。ストリップスペースを入力に適用するだけで、lxml を取得してきれいな印刷を適用する簡単な方法はありますか?
python - PythonでHTMLを解析する-lxmlまたはBeautifulSoup?これらのどれがどのような目的に適していますか?
私が理解できることから、Pythonの2つの主要なHTML解析ライブラリはlxmlとBeautifulSoupです。私が取り組んでいるプロジェクトにBeautifulSoupを選択しましたが、構文を少し習得して理解しやすくする以外の特別な理由はありません。しかし、多くの人がlxmlを好むようで、lxmlの方が速いと聞いています。
だから私は一方が他方よりも優れているのだろうかと思っていますか?いつlxmlを使用したいのですか?また、BeautifulSoupを使用したほうがよいのはいつですか?検討する価値のある他のライブラリはありますか?
python - ElementTree テキストにタグを挿入する
HTML を操作するために Python ElementTreeモジュールを使用しています。特定の単語を強調したいのですが、現在の解決策は次のとおりです。
上記は、各要素のテキストを調べて、見つかった重要な単語を強調しています。ただし、テキスト属性にHTMLタグを埋め込むことでこれを行います。これは、レンダリング時にエスケープされるため、次のように対処する必要があります。
これは気持ち悪いのでちゃんとやりたいです。ただし、新しい要素を埋め込むには、強調されたテキストが同じ位置に表示されるように、「テキスト」属性と「テール」属性をシフトする必要があります。そして、上記のように反復する場合、これは非常に注意が必要です。
これを適切に行うためのアドバイスをいただければ幸いです。APIで見逃しているものがあると確信しています!
python - lxmlのBeautifulSoupのrenderContents()メソッドに相当しますか?
tag.renderContents()
lxmlにBeautifulSoupのメソッドに相当するものはありますか?
を使用してみましelement.text
たが、子タグも表示され''.join(etree.tostring(child) for child in element)
ませんが、子テキストは表示されません。私が見つけた最も近いものはですが、それは私が望まないetree.tostring(element)
の開始タグと終了タグをレンダリングします。element
私が見落としている別の方法(またはこれを達成するための代替アプローチ)はありますか?
python - ルート要素の前にある XML コメントへのアクセス
lxml に関する問題を解決するのを手伝ってください。このファイルから「コメント 1」を取得するにはどうすればよいですか?
python - lxml、XPath、およびPythonを使用してWebページからリンクを抽出する方法は?
私はこのxpathクエリを持っています:
title 属性を持つすべてのリンクを抽出し、href
FireFoxの Xpath チェッカー アドオン を提供します。
しかし、私はそれを使用することはできませんlxml
。
これはlxml
(空のリスト) から結果を生成しません。
Python でhref
属性 title を含むハイパーリンクのテキスト (リンク) を取得するにはどうすればよいですか?lxml
python - Pythonでxmlrssを作成するためのlxmlとループ
私はrssフィードのxmlを作成するためにlxmlを使用しています。しかし、タグに問題があり、動的な数の要素を追加する方法を実際に理解することはできません。lxmlは関数のパラメーターとして関数を持っているように見えるので、ページ全体を作り直さずに動的な数のアイテムをループする方法を理解できないようです。