次のような「単語」を形成する特定の奇妙な文字を識別して削除するには、どのコマンドを使用できますか。
í‰äó_
퀌¢í‰ä‰åí‰ä‹¢
it퀌¢í‰ä‰åí‰ä‹¢
í‰äóìgo
一連のファイルから?これらはいくつかの例です...私はそのような出来事を取り除きたいです。
次のような「単語」を形成する特定の奇妙な文字を識別して削除するには、どのコマンドを使用できますか。
í‰äó_
퀌¢í‰ä‰åí‰ä‹¢
it퀌¢í‰ä‰åí‰ä‹¢
í‰äóìgo
一連のファイルから?これらはいくつかの例です...私はそのような出来事を取り除きたいです。
string
ファイルからデータを取得した後にモジュールを使用する:
import string
final_str = ''
for char in my_str:
if char in string.printable:
final_str += char
代替のワンライナー:
''.join([str(char) for char in my_str if char in string.printable])
正規表現サブはどうですか?
何かのようなもの:
import re
clean_name = re.sub(r'[^a-zA-Z0-9\._-]', '', dirty_name)
他の許可された文字を正規表現に追加します。
と にタグを付けたのでshell
、command-line
どうぞ
$ tr -cd [:graph:][:space:] < foo.txt
_
it
go