php - PHP を使用して Web サイト/HTML ページからすべての翻訳可能なテキストを取得する

Question

Web サイトを翻訳するための翻訳ツールをセットアップしようとしています。私がやりたいことはhtml-code、そのサイトからすべての翻訳可能なテキストをインポートして取得することです。

1 つのアイデアはを使用することstrip_tagsですが、alt-texts、title-texts など、まだ考えていない翻訳可能な文字列は無視されます。これを行うためのきれいな方法はありますか？

score 1 · Accepted Answer

この場合、HTML を解析してテキストを自分で抽出する必要があります。おそらく既にご存じのとおり、HTML を正規表現で解析するのは悪い考え (tm)です。SO、唯一の正しい解決策は、ドキュメントの DOM を解析することです。このステップでは、標準のDOMDocumentクラスを含む任意のツールを自由に使用できます。

役立つライブラリやスクリプトを探している場合は、商業的に使用できるhtml2textを参照することをお勧めします。ご覧のとおり、タグの属性はサポートされていません<img>が、修正は非常に簡単です (<a>例としてタグを使用)。

自動化されたテキスト抽出を探しているなら、間違いなくBolierpipeのようなものを探すべきです。

score 1 · Accepted Answer

個人的には、php DOM 関数の優れたラッパーである Symfony2のDOM Crowler コンポーネントを使用して、そこから始めます。

php - PHP を使用して Web サイト/HTML ページからすべての翻訳可能なテキストを取得する

2 に答える 2

Related

Reference