Java アプリケーションに問題があります。「 a」、「br」、「p」の html タグを含む大きなテキストがあります。
テキストは Google 翻訳で翻訳する必要があります。そして、私は翻訳クエリを作成することを余儀なくされました (!):
http://translate.google.com/m?hl=en&sl=auto&tl=" + tl + "&ie=UTF-8&prev=_m&q="+URLEncoder.encode(text);
今私の問題は、これらの厄介なタグにあります。まず、すべてのリンクをテキストの類似物に置き換えます。
text.replaceAll("<a (.*) href=\"(.*)\">(.*)</a>", "$2");
私の問題は次のとおりです。このテキストをGTに渡すと、すべてのリンクが削除されるだけなので、テキストリンクは返されず、残りのテキストのみが返されます。
非置換リンクでテキストを渡そうとすると、リンクの href が非常に長い場合 (私のリンクのようにかなり長いため)、完全に切り抜かれます。たとえば、
a href="AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAASDADSADSADSADASAAAAAAAAASADDSADSADASDASDSA" は、プレーンな "a" (その後はすべて空白) に変換されます。
どうすればいいですか?テキスト内のリンクを邪魔しないように、適切に機能させるにはどうすればよいですか?
前もって感謝します!
PS他のAPIを使用する他のオプションはありません。クエリのみです!