他の言語のコンテンツが含まれている可能性のあるWord2003+によって生成されたRTF1.5+ファイルを解析しています。このコンテンツは通常、16進リテラル(\'xx)としてエンコードされます。これらのリテラルをUnicode値に変換したいと思います。
ansicpg(\ ansi \ ansicpg1252)を探すことで、自分のドキュメントのコードページを知ることができます。
ansicpgコードページを使用してUnicodeにデコードすると、多くの言語(フランス語など)が期待するUnicode文字値に変換されるようです。
ただし、ロシア語のテキスト(以下のような)を見ると、コードページ1252はコンテンツをジバーリッシュにデコードします。
\ f277 \ lang1049 \ langfe1033 \ langnp1049 \ insrsid5989826 \ charrsid6817286 \'d1 \'f2 \'f0 \'e0 \'ed \'e8 \'f6 \'fb \'e1 \'e5 \'e7 \'ed \ ' e0 \'e7 \'e2 \'e0 \'ed \'e8\'ff。\'dd \'f2 \'e0 \'f1 \'f2 \'f0 \'e0 \'ed \'e8 \'f6 \'e0 \'ed \'e5 \'e4 \'ee \'eb \ ' e6 \'ed \'e0 \'ee \'f2 \'ee \'e1 \'f0 \'e0 \'e6 \'e0 \'f2 \'fc \'f1 \'ff \'e2 \'f2 \ 'e0 \'e1 \'eb \'e8 \'f6 \'e5 \'e2 \'f1 \'ee \'e4 \'e5 \'f0 \'e6 \'e0 \'ed \'e8 \'e8 。
lang1049、langfe1033、langnp1049が手がかりを提供してくれるので、それらが参照するテキストに対してプログラムで別の(デフォルト以外の)コードページを選択できると思いますか?もしそうなら、lang *コードをコードページにマップする方法を説明する情報はどこにありますか?または、探している情報を提供するために、他のRTFコマンド/ディレクティブを探す必要がありますか?(または、フォント参照として\ f277を使用して、関連するコードページがあるかどうかを確認する必要がありますか?)