私は他の誰か(恐ろしい)コードベースを継承し、現在必死に問題を修正しようとしています。今日、それは私たちのテンプレート/ホームページにあるすべてのデッドリンクのリストを集めることを意味します。
私は現在PythonでElementTreeを使用しており、xpathを使用してサイトを解析しようとしています。残念ながら、htmlの形式が正しくないようで、ElementTreeはエラーをスローし続けます。
よりエラーに優しいxpathパーサーはありますか?ElementTreeを非厳密モードで実行する方法はありますか?このプロセスを支援するために使用できる、前処理などの他の方法はありますか?