common-lisp - 無効な HTML を解析するための Common Lisp パッケージ?

Question

学習課題として、Common Lisp で Web スクレイパーを作成しています。（大まかな）計画は次のとおりです。

Quicklispを使用して依存関係を管理する
Drakmaを使用してページをロードする
ページをxmlで解析する

スクレイピングしている Web サイトが常に有効な XHTML を生成するとは限りません。これは、ステップ 3 (xml でページを解析する) が機能しないことを意味します。そして、私はこの男と同じように正規表現を使用するのが嫌いです:-)

では、無効な XHTML を解析するための Common Lisp パッケージを推奨できる人はいますか? .NET 用のHTML Agility Packに似たものを想像しています...

score 11 · Accepted Answer

"closure-html" プロジェクト (Quicklisp で利用可能) は、偽の HTML から回復し、作業できるものを生成します。私は Closure-html を CXML と一緒に使用して、任意の Web ページを処理していますが、うまく機能します。http://common-lisp.net/project/closure/closure-html/

score 1 · Accepted Answer

Duncan さん、これまでのところ、Ubuntu Linux と Windows (7 および XP) の両方で Clozure Common Lisp を使用して成功しています。

common-lisp - 無効な HTML を解析するための Common Lisp パッケージ?

3 に答える 3

Related

Reference