python - Python re.sub - コンテキストが一致しない場合に文字を置き換える

Question

破損した csv ファイルをクリーンアップしようとしています。1 つの問題は、データフィールド内に改行が含まれているため、1 つのデータセットが 2 つに分割されることです。改行の後に8桁が続かない場合に、改行を削除するpythonコードを探しています。これまでの私のコード:

filetoparse = open('test.csv', encoding='utf-8')
data = filetoparse.read()

data = re.sub(r'\n(\d{8})',r'§§§\1',data)
data = re.sub(r'\n',r'',data)
data = re.sub(r'§§§','\n',data)

基本的に、§§§ を正しい改行のプレースホルダーとして使用し、データ内のすべての改行を削除してから、プレースホルダーを再び改行に置き換えます。

それは機能しますが、これをよりエレガントに行う方法はありますか?

score 1 · Accepted Answer

否定先読みパターンを使用します。

data = re.sub(r'\n(?!\d{8})', '', data)

例えば、

import re
data = '''
12345678 foo
bar
baz
12345678 foo
'''
data = re.sub(r'\n(?!\d{8})', '', data)

print(data)

収量

12345678 foobarbaz
12345678 foo

python - Python re.sub - コンテキストが一致しない場合に文字を置き換える

1 に答える 1

Related

Reference