学習課題として、Common Lisp で Web スクレイパーを作成しています。(大まかな)計画は次のとおりです。
スクレイピングしている Web サイトが常に有効な XHTML を生成するとは限りません。これは、ステップ 3 (xml でページを解析する) が機能しないことを意味します。そして、私はこの男と同じように正規表現を使用するのが嫌いです:-)
では、無効な XHTML を解析するための Common Lisp パッケージを推奨できる人はいますか? .NET 用のHTML Agility Packに似たものを想像しています...