android - 解析中のトルコ文字の問題 (Android)

Question

HTMLコンテンツを解析していて、画面に出力があります。この Web サイトには、çÇşŞöÖğĞıİüÜ などのトルコ語の文字が含まれています。それらを適切な文字として表示することはできません。まだクエスチョンマークとして出力されています。

Eclipse -> プロジェクト -> プロパティ -> リソース -> テキストファイルのエンコード = コンテナーから継承 (Cp1254)

私はウェブを検索し、この解決策を見つけました：

Eclipse -> プロジェクト -> プロパティ -> リソース -> テキストファイルのエンコーディング = その他: UTF-8

しかし、それは機能していません。ファイルの現在の文字のみが変更されます。（私の活動にそのようなキャラクターがいるタイトルがあります）

何か助けはありますか？前もって感謝します...

score 0 · Accepted Answer

OK、私はついに本当の解決策を見つけました。解析元に応じて（charset = iso-8859-9およびEclipseではutf-8を使用してデータを取得しています）、char置換操作を実行する必要があります。私の場合、

    context = context.replaceAll("&#304;", "İ");
    context = context.replaceAll("&#305;", "ı");
    context = context.replaceAll("&#214;", "Ö");
    context = context.replaceAll("&#246;", "ö");
    context = context.replaceAll("&#220;", "Ü");
    context = context.replaceAll("&#252;", "ü");
    context = context.replaceAll("&#199;", "Ç");
    context = context.replaceAll("&#231;", "ç");
    context = context.replaceAll("&#286;", "Ğ");
    context = context.replaceAll("&#287;", "ğ");
    context = context.replaceAll("&#350;", "Ş");
    context = context.replaceAll("&#351;", "ş");

ここで、contextは、解析されたすべてのデータを保持し、TextViewに出力される文字列です。それで全部です。ずっと前に考えるべきだった！

score 0 · Accepted Answer

それはすべて、HTMLをメモリに解析する方法によって異なります。スキャナークラスを使用してファイルから取得し、htmlファイルがutf-8として保存されている場合は、次のようにします。

Scanner scanner = new Scanner(file, "UTF-8");

org.apache.httpパッケージを使用してWebから読み取り、コンテンツをオブジェクトとして持つHttpEntity場合は、次のようにします。

String content = EntityUtils.toString(httpEntity, "UTF-8");

つまり、すべてはhtmlファイルの読み方によって異なります。通常、リーダーの作成時にエンコーディングを指定できます。これを、ファイルが保存されているエンコーディングと一致させる必要があります。

android - 解析中のトルコ文字の問題 (Android)

2 に答える 2

Related

Reference