フォルダーに多数の .txt ファイルがあります。これらのファイルを読み取り、1 つの文字列として変数に保存するために使用する 2 つの関数を次に示します。
s=(glob.glob("/Users/user/documents/folder/*.txt"))
def read_files(files):
for filename in files:
with open(filename, 'r', encoding='latin-1') as file:
yield file.read()
def read_files_as_string(files, separator='\n'):
files_content = list(read_files(files=files))
return separator.join(files_content)
results=read_files_as_string(s)
CountVectorizer()
今、テキストからn-gramを取得するためにsklearnを使用するという私の考え。ただしCountVectorizer()
、文字列を入力として受け取りません。だから私の質問は、ファイルを1つの文字列に保存するのではなく、そのロジックを使用して保存するようにファイルを読み取る関数を作成するにはどうすればよいですか? TXT']
前もって感謝します!