0

Google API を使用してページを翻訳しようとしています。一度に Google に送信できるデータには 5,000 文字の制限があります。そのため、ページを 5000 文字に分割しようとしています。しかし、ご存知のように、これを行う際には、HTML の書式設定を乱さないように注意する必要があります。そうしないと、目的の結果が得られません。

たとえば、これを送信する必要があります。

<a href="#" class="myclass">Link</a>

これの代わりに:

<a href="#" class="myclas

"<" この記号が ">" この記号の後に来ているかどうかを確認することで、何らかの方法で (完全ではないと思いますが) 解決できます。「<」という記号が「>」の後に来る場合は、「>」が見つかった場所に戻って、そこから文字列を切り取ります。

とにかく、要点は、HTML の書式設定に関してまだいくつかの問題があり、それを効率的に行う方法を知りたいということです。この問題を解決できるパーサーはありますか!?

ありがとう

4

1 に答える 1

0

私がしなければならなかった小さな自動翻訳で非常によく似た問題があり、すべてのhtml式を次のような小さなものに置き換えることで解決しました:

<a href="#" class="myclass">Link</a>

[0]link[0] になり、[0] が href を表す場所をどこかに保存します。HTML 表現を探すには、正規表現を使用する必要があります。それはその時私を助けました、それがあなたにも役立つことを願っています.

デビッド

于 2011-01-28T08:03:36.297 に答える