MATLAB を使用して、ポーランドのツリーバンクの次の XML ファイルを読み込もうとしています: http://zil.ipipan.waw.pl/Sk%C5%82adnica?action=AttachFile&do=view&target=Sk%C5%82adnica-frazowa- 0.5-TigerXML.xml.gz
ポーランド語の文字は HTML コードとしてエンコードされているようです: http://webdesign.about.com/od/localization/l/blhtmlcodes-pl.htm
たとえば、ł
「ł」を表します。kłaniał
「UTF-8」を使用してツリーバンクを開くと、実際には「kłaniał」と表示されるはずの のような単語が表示されます
ここで、ツリーバンクを正しく読み取るための 2 つのオプションが表示されます。
- HTMLコードが対応する文字に変換されるように、XMLファイルを直接読み取ります。
- 最初に単語をデコードされていない形式 (たとえば
kłaniał
) で保存してから、後で文字を変換します。
MATLAB で 2 つのオプションのいずれか (または両方) を実行することは可能ですか?