私のスクリプトはcsvファイルからデータを読み取ります。csvファイルには、英語または英語以外の単語の複数の文字列を含めることができます。
テキストファイルにガベージ文字列が含まれている場合があります。それらの文字列を特定し、それらの文字列をスキップして他の文字列を処理したい
doc = codecs.open(input_text_file, "rb",'utf_8_sig')
fob = csv.DictReader(doc)
for row, entry in enumerate(f):
if is_valid_unicode_str(row['Name']):
process_futher
def is_valid_unicode_str(value):
try:
function
return True
except UnicodeEncodeError:
return false
csv 入力:
"Name"
"袋è¢âdcx€¹Ã¤Â¸Å½Ã¦Å“‹å‹们çâ€ÂµÃ¥ÂÂå•â€"
"元大寶來證券"
"John Dove"
ガベージ文字列を識別し、有効な文字列のみを処理する関数 is_valid_unicode_str() を汚したいと考えています。
デコードを使用しようとしましたが、ガベージ文字列のデコード中に失敗しませんでした
value.decode('utf8')
予想される出力は、処理される中国語と英語の文字列を含む文字列です。
有効な Unicode ファイルをフィルタリングする機能を実装する方法を教えてください。