問題タブ [lxml]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
15264 参照

python - lxml の属性に名前空間を追加する方法

Python と lxml を使用して、次のような xml エントリを作成しようとしています。

私はpythonとlxmlを使用しています。属性で困っていadlcp:scormtypeます。私はxmlを初めて使用するので、間違っている場合は修正してください。 adlcpは名前空間でありscormtype、adlcp 名前空間で定義されている属性ですよね?
これが正しい質問かどうかさえわかりませんが...私の質問は、lxmlを使用してデフォルト以外の名前空間から要素に属性を追加するにはどうすればよいですか? これが些細な質問である場合は、事前にお詫び申し上げます。

0 投票する
1 に答える
2335 参照

python - BeautifulSoupの「OR」構文に相当するlxml?

いくつかのhtml解析コードをBeautifulSoupからlxmlに変換しています。次のBeautifulSoupステートメントのlxmlと同等の構文を理解しようとしています。

基本的に、「currentzzt」または「zzt」のいずれかのクラス属性を持つドキュメント内のすべての「a」タグを検索したいと思います。BeautifulSoupを使用すると、リスト、辞書、または正規表現を渡して一致を実行できます。

lxmlに相当するものは何ですか?

ありがとう!

0 投票する
4 に答える
8867 参照

python - 属性を持つ HTML タグを含む Python Web スクレイピング

出版物の Web ページを解析して著者を抽出する Web スクレーパーを作成しようとしています。Web ページの骨格構造は次のとおりです。

これまでのところ、このタスクを達成するために BeautifulSoup と lxml を使用しようとしましたが、2 つの div タグと td タグには属性があるため、どのように処理すればよいかわかりません。これに加えて、BeautifulSoup と lxml のどちらに頼るべきか、あるいは両方の組み合わせに頼るべきかわかりません。私は何をすべきか?

現時点では、私のコードは以下のようになります。

多くの import ステートメントが冗長である可能性があることは認識していますが、現在持っているものをより多くのソース ファイルにコピーしただけです。

編集:私はこれを明確にしていないと思いますが、ページにスクレイピングしたいタグが複数あります。

0 投票する
1 に答える
292 参照

python - lxmlの属性とスタイルタグの違い

BeautifulSoupを使用した後、lxmlを学習しようとしています。しかし、私は一般的に強力なプログラマーではありません。

私はいくつかのソースhtmlに次のコードを持っています:

テキストが太字になっているので、そのテキストをプルしたいと思います。その特定の線が太字になっていることを区別できないようです。

今晩この作業を開始したとき、次のようなスタイル属性で太字の単語が含まれているドキュメントで作業していました。

私が作業しているドキュメントは、行を読み、行を結合してからhtml.fromstring関数を使用したフラグメントであると言えます。

したがって、上記のhtmコードの最初の行はnewHTM[19]です。

うーん、これは私を近づけているようです

私はまだ完全には理解していませんが、ここに解決策があります:

0 投票する
2 に答える
2270 参照

python - lxml をインストールできません (python 2.6.3、osx 10.6 Snow Leopard)

試みる:

easy_install lxml

そして、私はこのエラーを受け取ります:

ファイル "build/bdist.macosx-10.3-fat/egg/setuptools/command/build_ext.py"、85 行目、get_ext_filename KeyError: 'etree'

ヒントはありますか?

0 投票する
1 に答える
19580 参照

python - How can I view a text representation of an lxml element?

If I'm parsing an XML document using lxml, is it possible to view a text representation of an element? I tried to do :

but this outputs

What can I use to see the node like it exists in the XML file? Is there some to_xml method or something?

0 投票する
2 に答える
1327 参照

java - Pythonのlxmlライブラリと同等のClojure?

Pythonのlxmlライブラリに相当するClojure/Javaを探しています。

私は過去にあらゆる種類のhtmlを解析するために(BeautifulSoupの代わりとして)これを大量に使用しましたが、xmlにも同じelementtree apiを使用できるのは素晴らしいことです-本当に信頼できる友達です!誰かが同様のJava/Clojureライブラリを推奨できますか?

lxmlについて

lxmlは、libxml2に基づくxmlおよびhtml処理ライブラリです。壊れたHTMLページを非常にうまく処理するため、画面スクレイピングタスクに最適です。また、ElementTree apiを実装しているため、xml / html構造は、特にxpathおよびcssセレクターを完全にサポートするツリーオブジェクトとして表されます。

また、「スープ」から不要なタグ(つまり、スクリプトタグ、スタイルタグなど)を取り除く「クリーナー」モジュールなど、非常に便利なユーティリティ機能もいくつかあります。

そのため、使い方は簡単で、堅牢で、非常に高速です...!

0 投票する
2 に答える
11662 参照

python - python、lxml、および xpath - HTML テーブルの解析

私はlxmlが初めてで、pythonがまったく初めてで、次の解決策を見つけることができませんでした:

3 つの列と行 3 から始まる行数が定義されていないいくつかのテーブルをインポートする必要があります。

いずれかの行の 2 列目が空の場合、この行は破棄され、テーブルの処理は中止されます。

次のコードは、テーブルのデータを正常に出力します (ただし、後でデータを再利用することはできません)。

これは最初の列のみを出力します:(

以下は、3 行目のみをインポートし、後続の行はインポートしません。

行3からすべてのデータをtblに取得し、それを配列にコピーして、lxml依存関係のないモジュールに処理できるようにするための優れたソリューションを知っている人はいますか?

助けてくれてありがとう、アレックス