だから私は C で Web クローラーを作成したいと考えています。これをサポートするライブラリはほとんどありません。libtidy
を
使用して HTML を XHTML に変換し、libcurl (適切なドキュメントがあります) を使用して HTML ファイルを取得できます。
私の問題は、HTML ファイルを解析し、そこにあるすべてのリンクを取得することです。libxml2があることは知って いますが、その API に関する適切なドキュメントがないため、理解するのは非常に困難です。
これを C で行うか、Java のような別の言語を使用する必要がありますか? またはlibxml2に代わる良いものはありますか?