Web ページから情報を抽出したいと考えています。残念ながら、私の知る限り、ウェブサイト (4chan) には公開 API がありません。
HTML ドキュメントから特定のデータを抽出するのに適したライブラリは何ですか? 私は、UNIX システムで動作するフリー ソフトウェア ライブラリを好みます。
編集:基本的には4chanから投稿と画像を取得したい. Web ページは有効な HTML ではない (そして doctype を持っていない) ため、パーサーは厳密すぎるべきではありません。
Web ページから情報を抽出したいと考えています。残念ながら、私の知る限り、ウェブサイト (4chan) には公開 API がありません。
HTML ドキュメントから特定のデータを抽出するのに適したライブラリは何ですか? 私は、UNIX システムで動作するフリー ソフトウェア ライブラリを好みます。
編集:基本的には4chanから投稿と画像を取得したい. Web ページは有効な HTML ではない (そして doctype を持っていない) ため、パーサーは厳密すぎるべきではありません。
あなたが探しているのは HTML Dom Parse です。
前の質問のこのリンクが役に立ちます。こちらの質問もご覧ください
それは正しいです、htmlデータを解析するためのライブラリがたくさんあります。たとえば、Perlを使用する場合は、HTML::Parseを使用できます。
迅速な結果が必要で、システムコマンドの使用に同意する場合は、次を使用できます。
lynx -dump http://4chan.org
また
links -dump http://4chan.org