質問のタイトルがすべてを物語っています。少しグーグルでコードをいじくり回した後、Webページのプレーンテキストをダウンロードする方法がわかりません。
strip_tags();
まだ使用するJavaScript
とCSS
and が残り、正規表現でクリーンアップしようとしても問題が発生します。
PHP を使用して Web ページ (Wikipedia の記事など) をプレーンテキストでダウンロードする (単純または複雑な) 方法はありますか?
ここのようにPHPを使用してページをダウンロードしfile_get_contents();
ました:
$homepage = file_get_contents('http://www.example.com/');
私が言ったように、strip_tags();
etcを使用してみましたが、プレーンテキストを取得できません。
http://millkencode.googlecode.com/svn/trunk/htmlxtractor/ContentExtractor.phpを使用してメイン コンテンツを取得しようとしましたが、うまくいかないようです。