4

学習課題として、Common Lisp で Web スクレイパーを作成しています。(大まかな)計画は次のとおりです。

  1. Quicklispを使用して依存関係を管理する
  2. Drakmaを使用してページをロードする
  3. ページをxmlで解析する

スクレイピングしている Web サイトが常に有効な XHTML を生成するとは限りません。これは、ステップ 3 (xml でページを解析する) が機能しないことを意味します。そして、私はこの男と同じように正規表現を使用するのが嫌いです:-)

では、無効な XHTML を解析するための Common Lisp パッケージを推奨できる人はいますか? .NET 用のHTML Agility Packに似たものを想像しています...

4

3 に答える 3

11

"closure-html" プロジェクト (Quicklisp で利用可能) は、偽の HTML から回復し、作業できるものを生成します。私は Closure-html を CXML と一緒に使用して、任意の Web ページを処理していますが、うまく機能します。http://common-lisp.net/project/closure/closure-html/

于 2011-01-05T01:11:36.753 に答える
1

Duncan さん、これまでのところ、Ubuntu Linux と Windows (7 および XP) の両方で Clozure Common Lisp を使用して成功しています。

于 2011-04-13T14:55:15.243 に答える