問題タブ [lxml]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1407 参照

python - lxml Unicode 文字の変更

lxml を使用して xml ファイルを読み取り、いくつかの詳細を変更しています。ただし、実行すると、次のように lxml を使用してファイルを読み取ってから再度書き出すだけでも、次のようになります。

クイーンズライクが に変換されていることがわかりますQueensrÿche。誰でもこれを修正する方法を知っていますか?

0 投票する
2 に答える
6231 参照

python - Google App Engine で Python lxml を使用することは可能ですか?

Google App Engine で Python lxml を使用できますか? (または、美しいスープを使用する必要がありますか?)

Beautiful Soup を使い始めましたが、遅いようです。他の Web サイトからデータを「スクリーン スクレイピング」して、ある種の「マッシュアップ」を作成するというアイデアを試し始めたところです。

0 投票する
2 に答える
956 参照

python - lxml[.objectify] documentElement タグ名

それぞれが特定の documentRoot タグを持つ XML 形式のデータ パケットを受信して​​います。ルート タグ名に基づいて、これらのパケットを処理する特殊なメソッドを委任したいと考えています。これは、次のような xml.dom.minidom で機能しました。

ただし、よりpythonicなlxml.objectifyを使用して、(ここではなく、コードの他の部分で)物事を簡素化したい.

問題は、lxml、できれば厳密に lxml.objectify で「root.tagName」を取得する方法がわからないことです。何か案は?

0 投票する
1 に答える
786 参照

python - lxml XSLT pretty_print と strip-space を組み合わせる

大まかな XML を整理しているので、XSL 変換の lxml 出力で etree.tostring() の呼び出しに pretty_print = True を設定しました。ただし、元の入力からいくつかの不要な空白ノードが残っていたので、追加しました

...しかし、きれいな印刷を無視して、すべての空白を完全に折りたたみます。ストリップスペースを入力に適用するだけで、lxml を取得してきれいな印刷を適用する簡単な方法はありますか?

0 投票する
7 に答える
38065 参照

python - PythonでHTMLを解析する-lxmlまたはBeautifulSoup?これらのどれがどのような目的に適していますか?

私が理解できることから、Pythonの2つの主要なHTML解析ライブラリはlxmlとBeautifulSoupです。私が取り組んでいるプロジェクトにBeautifulSoupを選択しましたが、構文を少し習得して理解しやすくする以外の特別な理由はありません。しかし、多くの人がlxmlを好むようで、lxmlの方が速いと聞いています。

だから私は一方が他方よりも優れているのだろうかと思っていますか?いつlxmlを使用したいのですか?また、BeautifulSoupを使用したほうがよいのはいつですか?検討する価値のある他のライブラリはありますか?

0 投票する
2 に答える
2387 参照

python - ElementTree テキストにタグを挿入する

HTML を操作するために Python ElementTreeモジュールを使用しています。特定の単語を強調したいのですが、現在の解決策は次のとおりです。

上記は、各要素のテキストを調べて、見つかった重要な単語を強調しています。ただし、テキスト属性にHTMLタグを埋め込むことでこれを行います。これは、レンダリング時にエスケープされるため、次のように対処する必要があります。

これは気持ち悪いのでちゃんとやりたいです。ただし、新しい要素を埋め込むには、強調されたテキストが同じ位置に表示されるように、「テキスト」属性と「テール」属性をシフトする必要があります。そして、上記のように反復する場合、これは非常に注意が必要です。

これを適切に行うためのアドバイスをいただければ幸いです。APIで見逃しているものがあると確信しています!

0 投票する
2 に答える
909 参照

python - lxmlのBeautifulSoupのrenderContents()メソッドに相当しますか?

tag.renderContents()lxmlにBeautifulSoupのメソッドに相当するものはありますか?

を使用してみましelement.textたが、子タグも表示され''.join(etree.tostring(child) for child in element)ませんが、子テキストは表示されません。私が見つけた最も近いものはですが、それは私が望まないetree.tostring(element)の開始タグと終了タグをレンダリングします。element

私が見落としている別の方法(またはこれを達成するための代替アプローチ)はありますか?

0 投票する
2 に答える
6978 参照

python - ルート要素の前にある XML コメントへのアクセス

lxml に関する問題を解決するのを手伝ってください。このファイルから「コメント 1」を取得するにはどうすればよいですか?

0 投票する
2 に答える
22267 参照

python - lxml、XPath、およびPythonを使用してWebページからリンクを抽出する方法は?

私はこのxpathクエリを持っています:

title 属性を持つすべてのリンクを抽出し、hrefFireFoxの Xpath チェッカー アドオン を提供します。

しかし、私はそれを使用することはできませんlxml

これはlxml(空のリスト) から結果を生成しません。

Python でhref属性 title を含むハイパーリンクのテキスト (リンク) を取得するにはどうすればよいですか?lxml

0 投票する
3 に答える
2239 参照

python - Pythonでxmlrssを作成するためのlxmlとループ

私はrssフィードのxmlを作成するためにlxmlを使用しています。しかし、タグに問題があり、動的な数の要素を追加する方法を実際に理解することはできません。lxmlは関数のパラメーターとして関数を持っているように見えるので、ページ全体を作り直さずに動的な数のアイテムをループする方法を理解できないようです。