“lxml”の関連問題_Stack Overflow日本語サイト

0 投票する

3 に答える

2261 参照

python - PythonのlxmlでXMLカタログを使用していますか？

lxmlを使用してXMLドキュメントを解析するときに、外部カタログファイルを使用してそのドキュメントをDTDに対して検証する方法はありますか？ドキュメントのDTDで定義された固定属性を処理できる必要があります。

jsulak

2008-08-15T18:42:20.503

0 投票する

3 に答える

8135 参照

python - lxml (Python) で XHTML ドキュメントを処理するときに xpath が機能しないのはなぜですか?

次のテストドキュメントに対してテストしています。

lxml.html を使用してドキュメントを解析すると、xpath を使用して IMG を取得できます。

ただし、ドキュメントを XML として解析して IMG タグを取得しようとすると、空の結果が得られます。

要素に直接移動できます。

しかしもちろん、それは任意のドキュメントを処理するのには役立ちません。また、etree にクエリを実行して、この要素を直接識別する xpath 式を取得できることも期待しています。技術的には、次のように実行できます。

しかし、その xpath も、任意のドキュメントの解析には明らかに役に立ちません。

明らかに、ここでいくつかの重要な問題が欠けていますが、それが何であるかはわかりません。私の最善の推測は、名前空間と関係があるということですが、定義されている唯一の名前空間はデフォルトであり、名前空間に関して他に何を考慮する必要があるかわかりません。

それで、私は何が欠けていますか？

python xml xhtml xpath lxml

John

2008-11-17T22:42:58.650

0 投票する

2 に答える

12800 参照

python - HTMLを解析するためのpython lxml構文のヘルプが必要です

私はPythonが初めてで、lxmlを使用してhtmlタグを見つけて反復するための構文について助けが必要です。私が扱っているユースケースは次のとおりです。

HTML ファイルの形式はかなり整っています (完全ではありません)。画面上に複数のテーブルがあり、1 つは一連の検索結果を含み、1 つはヘッダーとフッター用です。各結果行には、検索結果の詳細へのリンクが含まれています。

検索結果の行を含む中央のテーブルを見つける必要があります (これは私が把握できたものです)。
/li>
この表に含まれるリンクを見つける必要があります (ここで行き詰まっています)。

リンク要素を実際に見つけていないようです。
リンクのプレーンテキストが必要です。searchLink.textそもそもリンク要素を実際に取得した場合のようなものになると思います。

最後に、lxml の実際の API リファレンスでは、find および findall 呼び出しに関する情報を見つけることができませんでした。これらは、Google で見つけたコードの一部から収集しました。lxml を使用して HTML タグを効果的に見つけて反復処理する方法について何か不足していますか?

python html-parsing lxml

Shaheeb Roshan

2009-03-02T17:48:28.097

0 投票する

1 に答える

363 参照

python - Python の lxml を使用して、エンティティ名の代わりに xml ドキュメントにエンティティ番号を出力するにはどうすればよいですか?

lxml と python を使用して xml ドキュメントを生成していますが ( etree.tostring(root) を使用しているだけです)、現在、結果の xml には、数値 ( < ; ) ではなく、名前付きエンティティ ( < ; ) と同じように html エンティティが表示されます。 . 結果が名前の代わりに数値を使用するように、これを変更するにはどうすればよいですか?

ありがとう

python xml lxml

Silfheed

2009-04-03T19:20:45.700

0 投票する

3 に答える

1323 参照

python - Django と lxml のデコードの問題

Django アプリケーションのデプロイされたバージョンを使用しているときに、lxml に奇妙な問題があります。lxml を使用して、サーバーから取得した別の HTML ページを解析します。これは、自分のコンピューターの開発サーバーでは完全に機能しますが、何らかの理由でUnicodeDecodeErrorサーバー上で表示されます。

Apache (mod_python を使用) がで実行されることを確認しましたLANG='en_US.UTF-8'。

この問題についてグーグルを試し、文字列を正しくデコードするためのさまざまなアプローチを試みましたが、わかりません。

あなたの答えでは、私の文字列が呼び出されているhelloか何かだと思うかもしれません。

python django utf-8 lxml decoding

2009-04-30T18:02:13.483

0 投票する

5 に答える

3653 参照

python - Python lxmlスクリーンスクレイピング?

PythonでHTML解析を行う必要があります。いくつかの調査の後、lxml が私の最良の選択のようですが、私がやろうとしていることを助ける例を見つけるのに苦労しています。これが私が聞いている理由です。表示可能なすべてのテキストのページをスクレイピングする必要があります。すべてのタグと JavaScript を取り除きます。表示可能なテキストを残すために必要です。十分に単純に聞こえます..私はHTMLParserでそれを行いましたが、JavaScriptをうまく処理していません

lxmlでこれを行う方法、またはHTMLParserを使用するより良い方法についてのアイデア..追加のライブラリが必要ないため、HTMLParserが最適です..みんなに感謝します

スコット F.

python html parsing screen-scraping lxml

Scott F

2009-05-02T05:44:05.253

0 投票する

1 に答える

10421 参照

python - Python: lxml に名前空間を追加する

この例のようなlxmlを使用して名前空間を指定しようとしています(ここから取得):

使用するスキーマインスタンスとスキーマの場所を追加する方法がわかりません。ドキュメンテーションは、次のようなことをすることで、私を始めました:

ただし、インスタンスを指定してから場所を指定する方法がわかりません。これはのnsmapキーワード引数で実行できるようetree.Elementですが、方法がわかりません。

python lxml xml-namespaces

2009-05-14T12:58:32.100

問題タブ [lxml]

Reference