質問のタイトルがすべてを物語っています。少しグーグルでコードをいじくり回した後、Webページのプレーンテキストをダウンロードする方法がわかりません。
strip_tags();まだ使用するJavaScriptとCSSand が残り、正規表現でクリーンアップしようとしても問題が発生します。
PHP を使用して Web ページ (Wikipedia の記事など) をプレーンテキストでダウンロードする (単純または複雑な) 方法はありますか?
ここのようにPHPを使用してページをダウンロードしfile_get_contents();ました:
$homepage = file_get_contents('http://www.example.com/');
私が言ったように、strip_tags();etcを使用してみましたが、プレーンテキストを取得できません。
http://millkencode.googlecode.com/svn/trunk/htmlxtractor/ContentExtractor.phpを使用してメイン コンテンツを取得しようとしましたが、うまくいかないようです。