php - php：htmlからプレーンテキストを取得します-simplehtmldomまたはphp strip_tags？

Question

私はhtmlからプレーンテキストを取得することを検討しています。php strip_tagsまたはsimplehtmldom平文抽出のどちらを選択する必要がありますか？

simplehtmldomのプロの1つは、無効なhtmlのサポートですが、それ自体で十分ですか？

score 12 · Accepted Answer

12

strip_tagsそのためには十分です。

于 2011-12-05T19:05:51.580 に答える

score 3 · Accepted Answer

あなたが言及した理由でおそらくsmiplehtmldomを使用する必要があり、strip_tagsは、script/styleブロック内に含まれるjavascriptやcssなどの非テキスト要素も残す可能性があります

表示されていない要素からテキストをフィルタリングすることもできます（inline style = display：none）

とは言うものの、htmlが十分に単純である場合、strip_tagsはより高速であり、同じタスクを実行します。

score 3 · Accepted Answer

HTMLからテキストを抽出するのは難しいので、Html2Textのようなライブラリを使用するのが最善のオプションです。この目的のために特別に構築されました。

composerを使用してインストールします。

composer require html2text/html2text

基本的な使用法：

$html = new \Html2Text\Html2Text('Hello, &quot;<b>world</b>&quot;');

echo $html->getText();  // Hello, "WORLD"

score 0 · Accepted Answer

ページのプレーンテキストレンダリングが必要な場合は、strip_tagsの方が高速で簡単です。ただし、そのプロセス中にテキストを操作したい場合は、simplehtmldomの方が長期的にはより効果的です。

score 0 · Accepted Answer

0

スラッシュを削除することもできますstripslashes（）

于 2017-02-27T08:42:49.863 に答える

5 に答える 5