c - C での HTML ファイルの解析 - libxml2 の代替

Question

だから私は C で Web クローラーを作成したいと考えています。これをサポートするライブラリはほとんどありません。libtidy
を使用して HTML を XHTML に変換し、libcurl (適切なドキュメントがあります) を使用して HTML ファイルを取得できます。

私の問題は、HTML ファイルを解析し、そこにあるすべてのリンクを取得することです。libxml2があることは知っていますが、その API に関する適切なドキュメントがないため、理解するのは非常に困難です。

これを C で行うか、Java のような別の言語を使用する必要がありますか? またはlibxml2に代わる良いものはありますか?

score 1 · Accepted Answer

HTML の解析には、基本的に文字列操作だけが必要です。

しかし、HTML または XML (XHTML の場合) パーサーなしで行うのは非常に困難です。

質問の 2 番目の部分については、基本的な文字列操作でさえ、それらをネイティブにサポートする他の多くの言語よりもはるかに複雑であるため、そのようなタスクに C を選択しません。

私なら、Python、JavaScript、PHP などのスクリプト言語を選びます...

libcurl を使用する代わりに、curl をコマンドラインツールとして呼び出します。

ところで: libcurl のドキュメントは非常に優れています (私の意見では)。

1 に答える 1