私が聞きたいことはとてもシンプルです。Web ブラウザー コントロールでホストされている HTML ドキュメントがあります。
これで、MSHTML の range プロパティを使用して韓国語を選択すると、 と を取得でき
range.htmlText
ますrange.Text
。どちらも韓国語を示しています。私がやりたいのは、それをユニコード形式に変換することだけです。
出来ますか?
参考までに、C# WinForms を使用してこれらすべてを行っています。
もう少し情報を提供していただけますか?「韓国語」はどのような形で読むのですか?(HTML ドキュメントのヘッダーと同じと思います。) 読み込もうとしている HTML ページのサンプルを投稿していただけますか?
取得している文字列が単に別のコード ページにあるという問題がある場合は、.Net の Encoding クラスを使用して変換できます。たとえば、テキストが iso-2022-kr にあるとします。以下のコードで「stringInKoreanIsoEncoding」と呼ばれる、文字列を変換するサンプルを次に示します。
Encoding koreanEncoding = Encoding.GetEncoding(50225); // 50225 is the code page for iso-2022-kr
byte[] convertedToUtf8 = Encoding.Convert(koreanEncoding, Encoding.UTF8, koreanEncoding.GetBytes(stringInKoreanIsoEncoding));
string utf8String = Encoding.UTF8.GetString(convertedToUtf8);