0

Web ページから情報を抽出したいと考えています。残念ながら、私の知る限り、ウェブサイト (4chan) には公開 API がありません。

HTML ドキュメントから特定のデータを抽出するのに適したライブラリは何ですか? 私は、UNIX システムで動作するフリー ソフトウェア ライブラリを好みます。


編集:基本的には4chanから投稿と画像を取得したい. Web ページは有効な HTML ではない (そして doctype を持っていない) ため、パーサーは厳密すぎるべきではありません。

4

2 に答える 2

2

あなたが探しているのは HTML Dom Parse です。

前の質問のこのリンクが役に立ちます。こちらの質問もご覧ください

于 2012-01-23T13:05:38.610 に答える
0

それは正しいです、htmlデータを解析するためのライブラリがたくさんあります。たとえば、Perlを使用する場合は、HTML::Parseを使用できます。

迅速な結果が必要で、システムコマンドの使用に同意する場合は、次を使用できます。

lynx -dump http://4chan.org

また

links -dump http://4chan.org
于 2012-01-23T13:35:11.020 に答える