bash - bashツールを使用して非ASCII文字を検索するにはどうすればよいですか？

Question

LaTeXをクラッシュさせるいくつかのUnicode文字を含む大きなテキストファイルがあります。Linux bashでsedなどを使用したファイルで非ASCII文字を見つけるにはどうすればよいですか？

score 35 · Accepted Answer

試す：

nonascii() { LANG=C grep --color=always '[^ -~]\+'; }

次のように使用できます。

printf 'ŨTF8\n' | nonascii

within[] ^は「ない」という意味です。so[^ -~]は、スペースと ~ の間にない文字を意味します。したがって、制御文字を除いて、これは非 ASCII 文字に一致し、以下のバージョンよりも若干正確ではありませんが、より移植性があり[^\x00-\x7f]ます。とは、各バイトに散在するのではなく、完全な文字の周りに色が表示されるマルチバイト文字を取得することを\+意味し、マルチバイトシーケンスを破損します。1 or more

score 26 · Accepted Answer

26

このコマンドを試してください：

grep -P '[^\x00-\x7f]' file

于 2012-11-28T02:00:20.907 に答える

bash - bashツールを使用して非ASCII文字を検索するにはどうすればよいですか？

2 に答える 2

Related

Reference