php - テキストのみの Web ページをダウンロードする

Question

質問のタイトルがすべてを物語っています。少しグーグルでコードをいじくり回した後、Webページのプレーンテキストをダウンロードする方法がわかりません。

strip_tags();まだ使用するJavaScriptとCSSand が残り、正規表現でクリーンアップしようとしても問題が発生します。

PHP を使用して Web ページ (Wikipedia の記事など) をプレーンテキストでダウンロードする (単純または複雑な) 方法はありますか?

ここのようにPHPを使用してページをダウンロードしfile_get_contents();ました：

$homepage = file_get_contents('http://www.example.com/');

私が言ったように、strip_tags();etcを使用してみましたが、プレーンテキストを取得できません。

http://millkencode.googlecode.com/svn/trunk/htmlxtractor/ContentExtractor.phpを使用してメインコンテンツを取得しようとしましたが、うまくいかないようです。

score 2 · Accepted Answer

これは見かけほど簡単ではありません。PHP Simple HTML DOM Parserのようなものを見ることをお勧めします。JavaScript と CSS を削除するのが難しい (そして、HTML に RegEx を使用するのは適切ではありません) ことを除けば、インラインスタイル設定やそのようなものがまだ存在する可能性があります。

もちろん、これは HTML の複雑さに関連しています。strip_tags場合によっては十分です。

score 1 · Accepted Answer

次のコードを使用します。

require_once('simple_html_dom.php');
$content=file_get_html('http://en.wikipedia.org/wiki/FYI');
$title=$content->find("#firstHeading",0)->plaintext ;
$text=$content->find("#bodyContent",0)->plaintext;
echo $title.$text;

http://simplehtmldom.sourceforge.net

php - テキストのみの Web ページをダウンロードする

2 に答える 2

Related

Reference