コンテンツ分析データ セットを構築するために使用している約 30,000 のテキスト ファイルのデータ セットを構築しています。必要なデータを取り出して削除する正規表現を使用して、ファイルのバッチをループしようとしています。
問題: 最初のファイルはきれいに見えますが、ファイルを上書きしようとすると、後続の各ファイルに先行するすべてのファイルの文字列が出力されます。そのような:
ファイル 1: ファイル 1 のテキスト ファイル 2: ファイル 2 のテキスト + ファイル 1 のテキスト ファイル n: ファイル n のテキスト + ファイル 1 のテキスト-(n-1) コードは次のようになります。
import sys
import re
import glob
string = ''
for n in glob.glob("*.txt"):
input = open(n, "r")
s = input.read()
for line in s:
string += line.replace("\n"," ")
input.close()
for n in glob.glob("*.txt"):
input2 = open(n, "w")
input2.write(string)
input2.close