ruby - Ruby の文字列からすべての非 ASCII 文字を削除する方法

Question

私は非常にシンプルで非常に必要な方法のようです。文字列からすべての非 ASCII 文字を削除する必要があります。例: Â© など。次の例を参照してください。

#coding: utf-8
s = " Hello this a mixed string Â© that I made."
puts s.encoding
puts s.encode

出力：

UTF-8
Hello this a mixed str

私が作った┬⌐です。

これを Watir に渡すと、次のエラーが生成されます: 互換性のない文字エンコーディング: UTF-8 および ASCII-8BIT

だから私の問題は、それを使用する前にすべての非ASCII文字を取り除きたいということです。ソース文字列「s」がどのエンコーディングを使用しているかはわかりません。

私はかなり長い間検索して実験してきました。

使おうとしたら

  puts s.encode('ASCII-8BIT')

エラーが発生します：

 : "\xC2\xA9" from UTF-8 to ASCII-8BIT (Encoding::UndefinedConversionError)

score 42 · Accepted Answer

あなたが尋ねたものを文字通りに翻訳することができますRegexp。あなたが書いた：

すべての非 ASCII 文字を削除したい

それを少し言い換えることができます：

ASCIIプロパティを持たないすべての文字を何も置換したくない

これは、次のように直接表現できるステートメントですRegexp。

s.gsub!(/\P{ASCII}/, '')

代わりに、次を使用することもできますString#delete!。

s.delete!("^\u{0000}-\u{007F}")

score 2 · Accepted Answer

正規表現を使用して文字を取り除きます。この例はC＃ですが、正規表現は同じである必要があります。文字列から非ASCII文字を削除するにはどうすればよいですか。（C＃で）

gsubを使用してそれをrubyに変換することは難しくありません。

score 1 · Accepted Answer

UTF-8 は可変長エンコーディングです。文字が 1 バイトを占める場合、その値は 7 ビット ASCII と一致します。では、MSB が「1」のバイトを探して、それらとそのトレーラーの両方を削除してみませんか? 「110」で始まるバイトの後に 1 バイトが追加されます。「1110」で始まるバイトの後に 2 バイトが続きます。また、'11110' で始まるバイトの後には、UTF-8 でサポートされる最大数である 3 つのバイトが続きます。

これはすべて私の頭のてっぺんから外れています。私は間違っているかもしれません。

ruby - Ruby の文字列からすべての非 ASCII 文字を削除する方法

3 に答える 3

Related

Reference