ruby - UTF-8 ファイルにアジア文字が含まれているかどうかを確認する方法は?

Question

質問: 特定の UTF ファイルにアジア文字が含まれているかどうかを確認する簡単な方法はありますか? UTF-8 と UTF-16 の両方で動作するようになれば素晴らしいと思います。一般的なアルゴリズムの代わりに ruby を使用するとなお良いでしょう。

編集: 私が CJK について学んだコメントによって、それは私が探しているものである可能性が最も高いです。

では、UTF ファイルに CJK 文字が含まれているかどうかをテストする方法はありますか?

score 3 · Accepted Answer

これは車輪の再発明かもしれませんがunpack('U*')、任意の文字列から Unicode コードポイントを取得するために使用できます。IE

   codepoints = '㌂'.unpack('U*').first
    => 13058

次に、.any? を使用できます。

 codepoints.any?{|c| overlaps_cjk?(c)}

http://graphemica.com/blocksから「アジア文字」と見なすすべての目的のコードポイントブロックを取得することで派生できるoverlaps_cjk 関数

例えば：

 CJK_CODEPOINTS = [(13000..13500)]
 def overlaps_cjk?(codepoint)
   CJK_CODEPOINTS.any?{|range| range.cover?(codepoint)}
 end

1 に答える 1