問題タブ [lxml]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python lxmlでhtml要素を取得する方法
私はこのhtmlコードを持っています:
この Python コードを使用して<td class="test">、lxml モジュールですべてを抽出します。
それはうまくいきます!結果は次のとおりです。
(つまり、それぞれの最初と 4 番目の列<tr>) 今、抽出する必要があります。
aaa (リンクのタイトル)
ddd
<small>(タグ間のテキスト)eee (リンクのタイトル)
hhh
<small>(タグ間のテキスト)
これらの値を抽出するにはどうすればよいですか?
(問題は、<b>タグを削除して最初の列のアンカーのタイトルを取得し、4 番目の列のタグを削除する必要があることです<small>)
ありがとうございました!
python - Creating a document tree before or after adding the subelements
I am using lxml and Python for writing XML files. I was wondering what is the accepted practice: creating a document tree first and then adding the sub elements OR adding the sub elements and creating the tree later? I know this hardly makes any difference as to the output, but I was interested in knowing what is the accepted norm in this from a coding-style point of view.
Sample code:
Or this:
python - Pythonでlxmlライブラリを使用してxmlファイルを作成する
私はlxmlを使用してXMLファイルを最初から作成しています。このようなコードを持っている:
クラスのメソッドをElement使用してルートオブジェクトをxmlファイルに書き込むにはどうすればよいですか?write()ElementTree
python - lxml Unicode エンティティ解析の問題
別のシステムからエクスポートされた XML ファイルを解析するために、次のように lxml を使用しています。
しかし、私は得ています:
lxml.etree.XMLSyntaxError: エンティティ 'eacute' が定義されていません、行 4495、列 46
明らかに、Unicode エンティティ名に問題がありますが、どうすればこれを回避できますか? open() または parse() 経由ですか?
編集:同じフォルダーに自分の DTD を含めるのを忘れていました。現在そこにあり、次の宣言があります。
xmldoc では次のように参照されます (常に参照されていました)。
それでも私は同じ問題を抱えています... PythonでもDTDを宣言する必要がありますか?
python - lxml の解析に関するヘルプ
大学のプロジェクトを実装するには、XML ファイルを処理する必要があります。このために、いくつかの調査を行った後、lxml を選択します。ただし、開始するのに役立つ優れたチュートリアルが見つからないようです。どのタイプの解析を使用する必要があるかを具体的に選択することはできません。私の XML ファイルにはそれほど多くのデータはありませんが、主な関心事は速度であり、メモリではありません。
誰かが私に役立つチュートリアルや検索できる本を教えてもらえますか? lxml サイトのチュートリアルを既に試しましたが、あまり役に立ちませんでした。lxmlでXMLを解析するコツをつかむために調べることができる小さなアプリケーションはありますか
python - LXML を使用したタグ内の複数の XML 名前空間
Python の LXML ライブラリを使用して、Garmin の Mapsource 製品で読み取ることができる GPX ファイルを作成しようとしています。GPX ファイルのヘッダーは次のようになります。
次のコードを使用すると:
私は得る:
迷惑なns0タグが付いています。これは完全に有効な XML かもしれませんが、Mapsource はそれを高く評価していません。
ns0これにタグを付けないようにする方法はありますか?
python - クラスまたは関数の使用に関して混乱している:lxmlおよびPythonを使用したXMLファイルの記述
lxmlとPythonを使用してXMLファイルを作成する必要があります。
ただし、を使用classしてこれを実行するのか、関数を使用するのかがわかりません。重要なのは、私が適切なソフトウェアを開発するのはこれが初めてであり、classそれでもどこで、なぜ使用するのかを決めるのは不思議に思えます。
私のポイントを説明します。
たとえば、etreeルートにサブ要素を追加するために作成した次の関数ベースのコードについて考えてみます。
予想どおり、これの出力は次のとおりです。
ただし、コメントに気付くと思いますが、このアプローチを使用してテキスト変数を設定する方法がわかりません。
classこれを解決する唯一の方法を使用していますか?もしそうなら、これを達成する方法についていくつかの指針を教えていただけますか?
python - lxml のエンコーディングを取り除く
lxml と Python を使用して XML ファイルを印刷しようとしています。
コードは次のとおりです。
出力:
ご覧のとおり、 を宣言しましたが、最終出力にはencoding = Noneまだ表示されています。encoding = 'ASCII'私が推測するものは期待されています。タグを入れないとencoding、まだ ASCII が表示されます。
エンコーディング部分ではなく、XML バージョン タグだけを取得する方法はありますか? 出力を次のようにしたい:
python - どの Python XML ライブラリを使用すればよいですか?
プロジェクトの XML ファイルを処理します。以前は lxml を使用することに決めていましたが、要件を読んだ後、私の目的には ElemenTree の方が適していると思います。
処理する必要がある XML ファイルは次のとおりです。
サイズが小さい。通常は 10 KB 未満です。
名前空間はありません。
単純な XML 構造。
XML のサイズが小さいため、メモリは問題になりません。私の唯一の懸念は、高速な解析です。
何を持って行けばいいですか?ほとんどの場合、人々がlxmlを推奨しているのを見てきましたが、私の解析要件を考えると、本当にそれから恩恵を受ける立場にあるのでしょうか、それともElementTreeが私の目的により適していますか?
python - lxml promが要素を圧縮するのを防ぐには?
次の Python コードを持つ:
lxml に「長い」バージョンを使用させるにはどうすればよいですか?
お気に入り