java - Tidyはラテン語以外の文字とのリンクを切断します

Question

私はJavaライブラリTidyを使用してhtmlコードをサニタイズします。一部のコードには、ロシア語の文字とのリンクが含まれています。例えば

<a href="http://example.com/Русский">link with Russian letters</a>

「Русский」はエスケープする必要があることは理解していますが、このhtmlはユーザーから入手しています。そして私の仕事はそれをXHTMLに変換することです。

整頓された文字はラテン文字以外の文字をエスケープしようとしていると思いますが、結果として

<a href="http://example.com/%420%443%441%441%43A%438%439">link with Russian letters</a>

これは正しいことではありません。正しいバージョンは

<a href="http://example.com/%D0%A0%D1%83%D1%81%D1%81%D0%BA%D0%B8%D0%B9">link with Russian letters</a>

Javaコードは

private static Tidy getTidy() {
    if (null == tidy) {
      tidy = new Tidy();
      tidy.setQuiet(true);
      tidy.setShowErrors(0);
      tidy.setShowWarnings(false);
      tidy.setXHTML(true);
      tidy.setOutputEncoding("UTF-8");
    }
    return tidy;
}

public static String sanitizeHtml(String html, URI pageUri) {
    boolean escapeMedia = false;
    String ret = "";
    try {
      Document doc = getTidy().parseDOM(new StringReader("<body>" + html + "</body>"), null);

      // here I make some processing

      // string output
      ByteArrayOutputStream out = new ByteArrayOutputStream();
      Node node = doc.getElementsByTagName("body").item(0);
      getTidy().pprint(node, out);
      ret = out.toString().trim();
    }
    catch (Exception e) {
      ret = html;
      e.printStackTrace();
    }

    return ret;
}

score 1 · Accepted Answer

これはハードコードされた動作であり、おそらくバグです。UTF-8 を使用する必要がある場合、URL 内の非 ASCII 文字をエスケープするために UTF-16 を使用します。を参照してくださいorg/w3c/tidy/AttrCheckImpl.java。

java - Tidyはラテン語以外の文字とのリンクを切断します

1 に答える 1

Related

Reference