4

URL のリストをダウンロードし、テキスト コンテンツのみを抽出するのに適したツールまたはツール セットは何でしょうか? スパイダリングは必須ではありませんが、ダウンロード ファイル名の制御とスレッド化はおまけです。

プラットフォームは Linux です。

4

6 に答える 6

5

wget | html2ascii

注: html2ascii は or で呼び出すこともできますhtml2a(html2textネット上で適切な man ページを見つけることができませんでした)。

も参照してくださいlynx

于 2009-01-12T14:30:01.703 に答える
3

Python Beautiful Soupを使用すると、優れた抽出プログラムを作成できます。

于 2009-01-12T15:04:56.360 に答える
0

Sourceforge で PHP 用の Simple HTML DOM パーサーを探してください。CURL でダウンロードした HTML を解析するために使用します。各 DOM 要素には、テキストのみを提供する "plaintext" 属性があります。私はかなり長い間、この組み合わせを使用して多くのアプリケーションで非常に成功していました.

于 2009-01-12T14:34:47.123 に答える
0

PERL (Practical Extracting and Reporting Language) は、この種の作業に最適なスクリプト言語です。http://search.cpan.org/には、必要な機能を持つモジュールの割り当てが含まれています。

于 2009-01-12T14:36:41.360 に答える
0

たとえば、w3m を使用して html ドキュメントをレンダリングし、テキスト コンテンツをテキストファイル w3m www.google.com > file.txt に入れることができることを知っています。

あとは、wget が使えると思います。

于 2009-01-12T14:31:16.410 に答える
0

wget を使用して必要な html をダウンロードし、出力ファイルに対して html2text を実行します。

于 2009-01-12T14:40:37.813 に答える