Pythonのlxmlライブラリに相当するClojure/Javaを探しています。
私は過去にあらゆる種類のhtmlを解析するために(BeautifulSoupの代わりとして)これを大量に使用しましたが、xmlにも同じelementtree apiを使用できるのは素晴らしいことです-本当に信頼できる友達です!誰かが同様のJava/Clojureライブラリを推奨できますか?
lxmlについて
lxmlは、libxml2に基づくxmlおよびhtml処理ライブラリです。壊れたHTMLページを非常にうまく処理するため、画面スクレイピングタスクに最適です。また、ElementTree apiを実装しているため、xml / html構造は、特にxpathおよびcssセレクターを完全にサポートするツリーオブジェクトとして表されます。
また、「スープ」から不要なタグ(つまり、スクリプトタグ、スタイルタグなど)を取り除く「クリーナー」モジュールなど、非常に便利なユーティリティ機能もいくつかあります。
そのため、使い方は簡単で、堅牢で、非常に高速です...!