python - Pythonで空白を取り除き、.txtを再保存します

Question

コンテンツ分析データセットを構築するために使用している約 30,000 のテキストファイルのデータセットを構築しています。必要なデータを取り出して削除する正規表現を使用して、ファイルのバッチをループしようとしています。

問題: 最初のファイルはきれいに見えますが、ファイルを上書きしようとすると、後続の各ファイルに先行するすべてのファイルの文字列が出力されます。そのような：

ファイル 1: ファイル 1 のテキストファイル 2: ファイル 2 のテキスト + ファイル 1 のテキストファイル n: ファイル n のテキスト + ファイル 1 のテキスト-(n-1) コードは次のようになります。

import sys
import re
import glob

string = ''

for n in glob.glob("*.txt"):
    input = open(n, "r")
    s = input.read()
    for line in s:
        string += line.replace("\n"," ")
    input.close()

    for n in glob.glob("*.txt"):
        input2 = open(n, "w")
        input2.write(string)
        input2.close

score 1 · Accepted Answer

問題は、変数の初期化にありますstring

forループの外側にあるため、前のファイルの内容が追加されます

新しいファイルを扱うたびに、この変数の内容を初期化する必要があります

したがって、初期化をループ内に移動するだけです

score 0 · Accepted Answer

inputはキーワードで、これを input1 に変更し、ループ内の 2 番目を削除します。また、毎回ループの最初に文字列をリセットします。

import sys
import re
import glob

for n in glob.glob("*.txt"):
    string = ''
    input1 = open(n, "r")
    s = input1.read()
    for line in s:
        string += line.replace("\n"," ")        
    input1.close()

    input2 = open(n, "w")
    input2.write(string)
    input2.close()

score 0 · Accepted Answer

string変数がに戻されていませんstring=''。したがってstring += ....、コンテンツを追加すると、問題が発生します。

for ループの末尾に次のように追加します。 string = ''

この関数を実行してドキュメントを閉じるには、括弧input2.close()が必要です。

python - Pythonで空白を取り除き、.txtを再保存します

3 に答える 3

Related

Reference