0

Java アプリケーションに問題があります。「 a」、「br」、「p」の html タグを含む大きなテキストがあります。

テキストは Google 翻訳で翻訳する必要があります。そして、私は翻訳クエリを作成することを余儀なくされました (!):

http://translate.google.com/m?hl=en&sl=auto&tl=" + tl + "&ie=UTF-8&prev=_m&q="+URLEncoder.encode(text);

今私の問題は、これらの厄介なタグにあります。まず、すべてのリンクをテキストの類似物に置き換えます。

text.replaceAll("<a (.*) href=\"(.*)\">(.*)</a>", "$2");

私の問題は次のとおりです。このテキストをGTに渡すと、すべてのリンクが削除されるだけなので、テキストリンクは返されず、残りのテキストのみが返されます。

置換リンクでテキストを渡そうとすると、リンクの href が非常に長い場合 (私のリンクのようにかなり長いため)、完全に切り抜かれます。たとえば、

a href="AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAASDADSADSADSADASAAAAAAAAASADDSADSADASDASDSA" は、プレーンな "a" (その後はすべて空白) に変換されます。

どうすればいいですか?テキスト内のリンクを邪魔しないように、適切に機能させるにはどうすればよいですか?

前もって感謝します!

PS他のAPIを使用する他のオプションはありません。クエリのみです!

4

0 に答える 0