Web サイトを翻訳するための翻訳ツールをセットアップしようとしています。私がやりたいことはhtml-code
、そのサイトからすべての翻訳可能なテキストをインポートして取得することです。
1 つのアイデアは を使用することstrip_tags
ですが、alt-texts、title-texts など、まだ考えていない翻訳可能な文字列は無視されます。これを行うためのきれいな方法はありますか?
Web サイトを翻訳するための翻訳ツールをセットアップしようとしています。私がやりたいことはhtml-code
、そのサイトからすべての翻訳可能なテキストをインポートして取得することです。
1 つのアイデアは を使用することstrip_tags
ですが、alt-texts、title-texts など、まだ考えていない翻訳可能な文字列は無視されます。これを行うためのきれいな方法はありますか?
この場合、HTML を解析してテキストを自分で抽出する必要があります。おそらく既にご存じのとおり、HTML を正規表現で解析するのは悪い考え (tm)です。SO、唯一の正しい解決策は、ドキュメントの DOM を解析することです。このステップでは、標準のDOMDocumentクラスを含む任意のツールを自由に使用できます。
役立つライブラリやスクリプトを探している場合は、商業的に使用できるhtml2textを参照することをお勧めします。ご覧のとおり、タグの属性はサポートされていません<img>
が、修正は非常に簡単です (<a>
例としてタグを使用)。
自動化されたテキスト抽出を探しているなら、間違いなくBolierpipeのようなものを探すべきです。
個人的には、php DOM 関数の優れたラッパーである Symfony2のDOM Crowler コンポーネントを使用して、そこから始めます。