html - HTML のダウンロードとテキストの抽出

Question

URL のリストをダウンロードし、テキストコンテンツのみを抽出するのに適したツールまたはツールセットは何でしょうか? スパイダリングは必須ではありませんが、ダウンロードファイル名の制御とスレッド化はおまけです。

プラットフォームは Linux です。

score 5 · Accepted Answer

wget | html2ascii

注: html2ascii は or で呼び出すこともできますhtml2a(html2textネット上で適切な man ページを見つけることができませんでした)。

も参照してくださいlynx。

score 3 · Accepted Answer

3

Python Beautiful Soupを使用すると、優れた抽出プログラムを作成できます。

于 2009-01-12T15:04:56.360 に答える

score 0 · Accepted Answer

Sourceforge で PHP 用の Simple HTML DOM パーサーを探してください。CURL でダウンロードした HTML を解析するために使用します。各 DOM 要素には、テキストのみを提供する "plaintext" 属性があります。私はかなり長い間、この組み合わせを使用して多くのアプリケーションで非常に成功していました.

score 0 · Accepted Answer

PERL (Practical Extracting and Reporting Language) は、この種の作業に最適なスクリプト言語です。http://search.cpan.org/には、必要な機能を持つモジュールの割り当てが含まれています。

score 0 · Accepted Answer

たとえば、w3m を使用して html ドキュメントをレンダリングし、テキストコンテンツをテキストファイル w3m www.google.com > file.txt に入れることができることを知っています。

あとは、wget が使えると思います。

score 0 · Accepted Answer

wget を使用して必要な html をダウンロードし、出力ファイルに対して html2text を実行します。

html - HTML のダウンロードとテキストの抽出

6 に答える 6

Related

Reference