翻訳プログラムの場合、文章とリンクを翻訳するために、HTML ファイルから 95% 正確なテキストを取得しようとしています。
例えば:
<div><a href="stack">Overflow</a> <span>Texts <b>go</b> here</span></div>
翻訳する2つの結果が得られるはずです:
Overflow
Texts <b>go</b> here
この問題に対して利用可能な提案や商用パッケージはありますか?
翻訳プログラムの場合、文章とリンクを翻訳するために、HTML ファイルから 95% 正確なテキストを取得しようとしています。
例えば:
<div><a href="stack">Overflow</a> <span>Texts <b>go</b> here</span></div>
翻訳する2つの結果が得られるはずです:
Overflow
Texts <b>go</b> here
この問題に対して利用可能な提案や商用パッケージはありますか?
あなたが何を求めているのか正確にはわかりませんが、simplehtmldomを見てください。具体的には、そのフロント ページのクイック スタートの下にある [Extract Contents from HTML] タブ (直接リンクできません、ため息)。これにより、これらの厄介なタグをすべて使用せずに、Web サイトのテキストを抽出できます。