問題タブ [lxml]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - PythonのlxmlでXMLカタログを使用していますか?
lxmlを使用してXMLドキュメントを解析するときに、外部カタログファイルを使用してそのドキュメントをDTDに対して検証する方法はありますか?ドキュメントのDTDで定義された固定属性を処理できる必要があります。
python - lxml (Python) で XHTML ドキュメントを処理するときに xpath が機能しないのはなぜですか?
次のテスト ドキュメントに対してテストしています。
lxml.html を使用してドキュメントを解析すると、xpath を使用して IMG を取得できます。
ただし、ドキュメントを XML として解析して IMG タグを取得しようとすると、空の結果が得られます。
要素に直接移動できます。
しかしもちろん、それは任意のドキュメントを処理するのには役立ちません。また、etree にクエリを実行して、この要素を直接識別する xpath 式を取得できることも期待しています。技術的には、次のように実行できます。
しかし、その xpath も、任意のドキュメントの解析には明らかに役に立ちません。
明らかに、ここでいくつかの重要な問題が欠けていますが、それが何であるかはわかりません。私の最善の推測は、名前空間と関係があるということですが、定義されている唯一の名前空間はデフォルトであり、名前空間に関して他に何を考慮する必要があるかわかりません。
それで、私は何が欠けていますか?
python - HTMLを解析するためのpython lxml構文のヘルプが必要です
私はPythonが初めてで、lxmlを使用してhtmlタグを見つけて反復するための構文について助けが必要です。私が扱っているユースケースは次のとおりです。
HTML ファイルの形式はかなり整っています (完全ではありません)。画面上に複数のテーブルがあり、1 つは一連の検索結果を含み、1 つはヘッダーとフッター用です。各結果行には、検索結果の詳細へのリンクが含まれています。
検索結果の行を含む中央のテーブルを見つける必要があります (これは私が把握できたものです)。
/li>この表に含まれるリンクを見つける必要があります (ここで行き詰まっています)。
リンク要素を実際に見つけていないようです。
リンクのプレーンテキストが必要です。
searchLink.text
そもそもリンク要素を実際に取得した場合のようなものになると思います。
最後に、lxml の実際の API リファレンスでは、find および findall 呼び出しに関する情報を見つけることができませんでした。これらは、Google で見つけたコードの一部から収集しました。lxml を使用して HTML タグを効果的に見つけて反復処理する方法について何か不足していますか?
python - Python の lxml を使用して、エンティティ名の代わりに xml ドキュメントにエンティティ番号を出力するにはどうすればよいですか?
lxml と python を使用して xml ドキュメントを生成していますが ( etree.tostring(root) を使用しているだけです)、現在、結果の xml には、数値 ( < ; ) ではなく、名前付きエンティティ ( < ; ) と同じように html エンティティが表示されます。 . 結果が名前の代わりに数値を使用するように、これを変更するにはどうすればよいですか?
ありがとう
python - Django と lxml のデコードの問題
Django アプリケーションのデプロイされたバージョンを使用しているときに、lxml に奇妙な問題があります。lxml を使用して、サーバーから取得した別の HTML ページを解析します。これは、自分のコンピューターの開発サーバーでは完全に機能しますが、何らかの理由でUnicodeDecodeError
サーバー上で表示されます。
Apache (mod_python を使用) が で実行されることを確認しましたLANG='en_US.UTF-8'
。
この問題についてグーグルを試し、文字列を正しくデコードするためのさまざまなアプローチを試みましたが、わかりません。
あなたの答えでは、私の文字列が呼び出されているhello
か何かだと思うかもしれません。
python - Python lxmlスクリーンスクレイピング?
PythonでHTML解析を行う必要があります。いくつかの調査の後、lxml が私の最良の選択のようですが、私がやろうとしていることを助ける例を見つけるのに苦労しています。これが私が聞いている理由です。表示可能なすべてのテキストのページをスクレイピングする必要があります。すべてのタグと JavaScript を取り除きます。表示可能なテキストを残すために必要です。十分に単純に聞こえます..私はHTMLParserでそれを行いましたが、JavaScriptをうまく処理していません
lxmlでこれを行う方法、またはHTMLParserを使用するより良い方法についてのアイデア..追加のライブラリが必要ないため、HTMLParserが最適です..みんなに感謝します
スコット F.
python - Python: lxml に名前空間を追加する
この例のようなlxmlを使用して名前空間を指定しようとしています(ここから取得):
使用するスキーマ インスタンスとスキーマの場所を追加する方法がわかりません。ドキュメンテーションは、次のようなことをすることで、私を始めました:
ただし、インスタンスを指定してから場所を指定する方法がわかりません。これは のnsmap
キーワード引数で実行できるようetree.Element
ですが、方法がわかりません。