2

Web サイトを翻訳するための翻訳ツールをセットアップしようとしています。私がやりたいことはhtml-code、そのサイトからすべての翻訳可能なテキストをインポートして取得することです。

1 つのアイデアは を使用することstrip_tagsですが、alt-texts、title-texts など、まだ考えていない翻訳可能な文字列は無視されます。これを行うためのきれいな方法はありますか?

4

2 に答える 2

1

この場合、HTML を解析してテキストを自分で抽出する必要があります。おそらく既にご存じのとおり、HTML を正規表現で解析するのは悪い考え (tm)です。SO、唯一の正しい解決策は、ドキュメントの DOM を解析することです。このステップでは、標準のDOMDocumentクラスを含む任意のツールを自由に使用できます。

役立つライブラリやスクリプトを探している場合は、商業的に使用できるhtml2textを参照することをお勧めします。ご覧のとおり、タグの属性はサポートされていません<img>が、修正は非常に簡単です (<a>例としてタグを使用)。

自動化されたテキスト抽出を探しているなら、間違いなくBolierpipeのようなものを探すべきです。

于 2013-01-23T09:46:40.590 に答える
1

個人的には、php DOM 関数の優れたラッパーである Symfony2のDOM Crowler コンポーネントを使用して、そこから始めます。

于 2013-01-23T09:18:56.343 に答える