c++ - HTML ページからデータを抽出するためのライブラリはありますか?

Question

Web ページから情報を抽出したいと考えています。残念ながら、私の知る限り、ウェブサイト (4chan) には公開 API がありません。

HTML ドキュメントから特定のデータを抽出するのに適したライブラリは何ですか? 私は、UNIX システムで動作するフリーソフトウェアライブラリを好みます。

編集：基本的には4chanから投稿と画像を取得したい. Web ページは有効な HTML ではない (そして doctype を持っていない) ため、パーサーは厳密すぎるべきではありません。

score 2 · Accepted Answer

あなたが探しているのは HTML Dom Parse です。

score 0 · Accepted Answer

それは正しいです、htmlデータを解析するためのライブラリがたくさんあります。たとえば、Perlを使用する場合は、HTML::Parseを使用できます。

迅速な結果が必要で、システムコマンドの使用に同意する場合は、次を使用できます。

lynx -dump http://4chan.org

また

links -dump http://4chan.org

2 に答える 2