python - Pythonで任意の文字および/または未定義の改行を正規表現と一致させる

翻译自：https://stackoverflow.com/questions/58544747 2019-10-24T15:38:29.907

109 次

Pythonで正規表現を使用してログtxtファイルを解析する必要があります。これは txt の例です (名前はfile):

20/01/18, 08:11 - ピーター: おはようございます

元気ですか？

ピーター 20/01/18, 09:00 - キャロライン: おかげさまで元気です。君は？

20/01/18, 09:01 - ピーター: 良い

数日前にいくつかの問題がありました。

今、私は幸せです

あなたは働いていますか？

20/01/18, 09:02 - Caroline: いいえ、野菜を買うためにスーパーマーケットに行かなければなりません

20/01/18, 09:12 - ピーター: いいね！

今どこにいるの？

この正規表現でテキスト全体を解析しようとしました:

f = open(file, 'r', encoding='utf-8')
texts=re.findall('(\d+/\d+/\d+, \d+:\d+\d+) - (.+?): (.*)',f.read())
f.close()

df= pd.DataFrame(texts,columns=['data','name','text'])

ただし、Python で 1 つまたは複数の改行を一致させるときに問題が発生します (たとえば、09:01 の Peter のテキスト)。また、https://regex101.com/で可能な解決策を見つけようとしましたが、成功しませんでした。

助けてください。

python - Pythonで任意の文字および/または未定義の改行を正規表現と一致させる

2 に答える 2

Related

Reference