Google API を使用してページを翻訳しようとしています。一度に Google に送信できるデータには 5,000 文字の制限があります。そのため、ページを 5000 文字に分割しようとしています。しかし、ご存知のように、これを行う際には、HTML の書式設定を乱さないように注意する必要があります。そうしないと、目的の結果が得られません。
たとえば、これを送信する必要があります。
<a href="#" class="myclass">Link</a>
これの代わりに:
<a href="#" class="myclas
"<" この記号が ">" この記号の後に来ているかどうかを確認することで、何らかの方法で (完全ではないと思いますが) 解決できます。「<」という記号が「>」の後に来る場合は、「>」が見つかった場所に戻って、そこから文字列を切り取ります。
とにかく、要点は、HTML の書式設定に関してまだいくつかの問題があり、それを効率的に行う方法を知りたいということです。この問題を解決できるパーサーはありますか!?
ありがとう