URL のリストをダウンロードし、テキスト コンテンツのみを抽出するのに適したツールまたはツール セットは何でしょうか? スパイダリングは必須ではありませんが、ダウンロード ファイル名の制御とスレッド化はおまけです。
プラットフォームは Linux です。
URL のリストをダウンロードし、テキスト コンテンツのみを抽出するのに適したツールまたはツール セットは何でしょうか? スパイダリングは必須ではありませんが、ダウンロード ファイル名の制御とスレッド化はおまけです。
プラットフォームは Linux です。
注: html2ascii は or で呼び出すこともできますhtml2a
(html2text
ネット上で適切な man ページを見つけることができませんでした)。
も参照してくださいlynx
。
Python Beautiful Soupを使用すると、優れた抽出プログラムを作成できます。
Sourceforge で PHP 用の Simple HTML DOM パーサーを探してください。CURL でダウンロードした HTML を解析するために使用します。各 DOM 要素には、テキストのみを提供する "plaintext" 属性があります。私はかなり長い間、この組み合わせを使用して多くのアプリケーションで非常に成功していました.
PERL (Practical Extracting and Reporting Language) は、この種の作業に最適なスクリプト言語です。http://search.cpan.org/には、必要な機能を持つモジュールの割り当てが含まれています。
たとえば、w3m を使用して html ドキュメントをレンダリングし、テキスト コンテンツをテキストファイル w3m www.google.com > file.txt に入れることができることを知っています。
あとは、wget が使えると思います。
wget を使用して必要な html をダウンロードし、出力ファイルに対して html2text を実行します。