“lxml”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

1039 参照

python - lxmlを使用してテキストを抽出する方法は？

特定のウェブサイトでテキストを抽出したい。これが、スクレーパーを作成するためにテキストを抽出したいWebアドレスです。 http://news.search.naver.com/search.naver?sm=tab_hty&where=news&query=times&x=0&y=0 このページでは、件名とコンテンツフィールドを別々に含むテキストを抽出したいと思います。たとえば、そのページを開くと、ページにテキストが表示されます。

JAPAN TOKYO INTERNATIONALFILMFESTIVALEPA연합뉴unicorn세계| 2009.10.25（일）오후7:21日本、2009年10月25日。ゲイトは、フランスの映画製作者シャビモリア監督の映画「エイトタイムズアップ」での彼女の役割で最優秀女優賞を受賞しました。EPA / DAI KUROKAWA

JAPAN TOKYO INTERNATIONALFILMFESTIVALEPA연합뉴unicorn세계| 2009.10.25（일）오후7:18彼女は、第22回東京の授賞式で、フランスの映画監督シャビ・モリアの映画「エイト・タイムズ・アップ」で主演女優賞を受賞したことを知りました。

等々、、、、

そして最後に、フォーマットのようなテキストを抽出したい

件名：JAPAN TOKYO INTERNATIONAL FILM FESTIVAL CONTENT：EPA연합뉴unicorn세계| 2009.10.25（일）오후7:21日本、2009年10月25日。ゲイトは、フランスの映画製作者シャビモリア監督の映画「エイトタイムズアップ」での彼女の役割で最優秀女優賞を受賞しました。EPA / DAI KUROKAWA

件名：...コンテンツ：..。

AND SO ON ..誰かが助けてくれたら、本当に感謝します。前もって感謝します。

2009-10-25T17:01:57.037

0 投票する

1 に答える

184 参照

django - lxml を使用して Web サイトからメッセージを取得するには?

Exam.com は天気に関するものではありません。

Django 1.1とlxmlを使用して Web サイトで情報を取得したいと考えています。「25」だけの情報が欲しい。

次のようなHTMLのexam.com構造：

私は学生です。私は友達と小さなプロジェクトをやっています。分かりやすく教えてください。どうもありがとうございました！

django lxml

2009-10-30T07:47:16.667

0 投票する

1 に答える

320 参照

python - Python 2.6.x 用の XML/XSL ライブラリの選択

現在、LXMLとlibXML2の 2 種類があり、どちらも機能しているようです。特にメモリ文字列とファイルを XML に解析し、XSLT スタイルシートをインポートして適用するために、両方のベンチマークを試みました。純粋なパフォーマンスベースのテストでは、LXML が (具体的にはスタイルシートを適用して) 一番上にあることが示されていますが、libxml2 は他の多くの言語のデファクトスタンダードとして使用されているようです。さらに、LXML の構文解析中、エンティティーの置換に問題があるようです。

私の主な質問は次のとおりです。本番環境で LXML を使用して成功した人はいますか?あなたの印象はどうでしたか?

python xslt lxml libxml2 benchmarking

2009-11-11T17:08:39.423

0 投票する

1 に答える

1535 参照

python - Lxml html xpath コンテキスト

contextlxml を使用して HTML ファイルを解析していますが、xpath 検索の設定方法を知りたいです。つまり、ノード要素があり、このノード内でのみルートノードであるかのように xpath 検索を行いたいということです。たとえば、フォームノードがあり、xpath 検索//inputでは、ページ上のすべてのフォームのすべての入力ではなく、指定されたフォームの入力のみが返されます。どうやってやるの？ここxpath contextでいくつかのドキュメントを見つけましたが、それは私が望むものではないようです。

python xpath lxml

2009-11-12T20:48:01.923

0 投票する

3 に答える

1687 参照

python - XMLフラグメントをlxmlでスタイルシートパラメータとして渡しますか?

私はlxmlXML/XSL ドキュメントを処理するために Python で使用し始めていますが、一般的には非常に簡単です。ただし、翻訳時に XML フラグメントをスタイルシートパラメータとして渡す方法が見つかりません。

たとえば、PHP ではDOMDocumentXML フラグメントをスタイルシートパラメータとして渡すことができるため、スタイルシート内で複雑なパラメータを使用できます。

結果は次のようになります。

を使用してこれをどのように達成しlxmlますか?

python xml xslt lxml

2009-11-18T14:54:38.897

0 投票する

1 に答える

895 参照

python - html を lxml で解析し、minidom で操作する方法はありますか?

私は、html5lib を使用して自由に html を解析しているアプリケーションを持っています。私は実際の DOM API が必要であり、ElementTree は私がやっていることには適していないため、minidom インターフェースを使用します。

これが私がこれを行う方法です：

ただし、巨大なファイルの解析がパフォーマンスのボトルネックになりつつあり、lxml の解析は html5lib よりも約 80 倍高速です (ベンチマークしました)。

lxml または同様に高速な bad-html-tolerant ライブラリで解析し、DOM 互換 API で操作するにはどうすればよいですか?

python html dom parsing lxml

2009-11-20T17:25:15.057

0 投票する

2 に答える

8448 参照

python - 要素をlxml.htmlに置き換える

私は全体としてlxmlとHTMLパーサーにかなり慣れていません。ツリー内の要素を別の要素に置き換える方法があるかどうか疑問に思いました...

たとえば、私は持っています：

これらの線に沿って何かをしたいのですが、「hilited」はlxml.etree._Elementではないため、「TypeError」が発生します。

これは実行可能ですか？

よろしく、

python lxml

2009-11-28T15:22:58.813

0 投票する

4 に答える

1182 参照

python - Python：XMLファイルからHTMLを抽出します

私のXMLファイルは次のようになります。

内部タグを維持しながら、各<string>のコンテンツを抽出したいと思います。つまり、次のPython文字列を表示したいと思います：u "Bla <b> One＆Two </b>Foo"。あるいは、u "Bla <b> One＆Two </ b> Foo"に落ち着いて、自分でエンティティを置き換えようとすることもできると思います。

私は現在lxmlを使用しています。これにより、ネストされたタグを反復処理したり、タグ内にないテキストを欠落させたり、あるいはすべてのテキストコンテンツ（itertext）を反復処理して、タグ情報を失ったりすることができます。私はおそらく何かが欠けています。

可能であればlxmlを保持したいのですが、必要に応じて別のライブラリに切り替えることができます。

python html xml lxml

2009-11-29T07:38:31.373

問題タブ [lxml]

Reference