0

質問のタイトルがすべてを物語っています。少しグーグルでコードをいじくり回した後、Webページのプレーンテキストをダウンロードする方法がわかりません。

strip_tags();まだ使用するJavaScriptCSSand が残り、正規表現でクリーンアップしようとしても問題が発生します。

PHP を使用して Web ページ (Wikipedia の記事など) をプレーンテキストでダウンロードする (単純または複雑な) 方法はありますか?

ここのようにPHPを使用してページをダウンロードしfile_get_contents();ました:

$homepage = file_get_contents('http://www.example.com/');

私が言ったように、strip_tags();etcを使用してみましたが、プレーンテキストを取得できません。

http://millkencode.googlecode.com/svn/trunk/htmlxtractor/ContentExtractor.phpを使用してメイン コンテンツを取得しようとしましたが、うまくいかないようです。

4

2 に答える 2

2

これは見かけほど簡単ではありません。PHP Simple HTML DOM Parserのようなものを見ることをお勧めします。JavaScript と CSS を削除するのが難しい (そして、HTML に RegEx を使用するのは適切ではありません) ことを除けば、インライン スタイル設定やそのようなものがまだ存在する可能性があります。

もちろん、これは HTML の複雑さに関連しています。strip_tags場合によっては十分です。

于 2013-08-03T05:45:55.573 に答える
1

次のコードを使用します。

require_once('simple_html_dom.php');
$content=file_get_html('http://en.wikipedia.org/wiki/FYI');
$title=$content->find("#firstHeading",0)->plaintext ;
$text=$content->find("#bodyContent",0)->plaintext;
echo $title.$text;

http://simplehtmldom.sourceforge.net

于 2013-08-03T05:49:55.260 に答える