php - コンテキストを失わずに HTML ページからすべてのテキストを抽出する

Question

翻訳プログラムの場合、文章とリンクを翻訳するために、HTML ファイルから 95% 正確なテキストを取得しようとしています。

例えば：

<div><a href="stack">Overflow</a> <span>Texts <b>go</b> here</span></div>

翻訳する2つの結果が得られるはずです：

Overflow

Texts <b>go</b> here

この問題に対して利用可能な提案や商用パッケージはありますか?

score 0 · Accepted Answer

あなたが何を求めているのか正確にはわかりませんが、simplehtmldomを見てください。具体的には、そのフロントページのクイックスタートの下にある [Extract Contents from HTML] タブ (直接リンクできません、ため息)。これにより、これらの厄介なタグをすべて使用せずに、Web サイトのテキストを抽出できます。

php - コンテキストを失わずに HTML ページからすべてのテキストを抽出する

1 に答える 1

Related

Reference