10

Pythonのlxmlライブラリに相当するClojure/Javaを探しています。

私は過去にあらゆる種類のhtmlを解析するために(BeautifulSoupの代わりとして)これを大量に使用しましたが、xmlにも同じelementtree apiを使用できるのは素晴らしいことです-本当に信頼できる友達です!誰かが同様のJava/Clojureライブラリを推奨できますか?

lxmlについて

lxmlは、libxml2に基づくxmlおよびhtml処理ライブラリです。壊れたHTMLページを非常にうまく処理するため、画面スクレイピングタスクに最適です。また、ElementTree apiを実装しているため、xml / html構造は、特にxpathおよびcssセレクターを完全にサポートするツリーオブジェクトとして表されます。

また、「スープ」から不要なタグ(つまり、スクリプトタグ、スタイルタグなど)を取り除く「クリーナー」モジュールなど、非常に便利なユーティリティ機能もいくつかあります。

そのため、使い方は簡単で、堅牢で、非常に高速です...!

4

2 に答える 2

8

Enlive:http ://github.com/cgrand/enlive

私はそれをスクリーンスクレイピングに使用しましたが、それは非常にうまく機能します。ドキュメント内の要素を取得するための構文のようなCSSセレクターを使用します。

于 2009-10-15T13:31:22.697 に答える
4

Javaの場合(したがってClojureから使用可能)はtagsoup-libraryであり、これは、のようlxmlに、障害のあるSGMLバリアントのトレラントパーサーです。

Clojureにはバンドルされた名前空間clojure.xmlがありますが、これは有効なXMLでのみ機能します。

于 2009-10-15T00:16:27.873 に答える