python - ダウンロードしたテキストファイルをpythonで解析できるプログラムを作りたい

Question

分析には以下が含まれます。

テキストデータの単語数は?

キーワードがテキストデータに何回出現するか。

import os
f= open(os.path.join(os.getcwd(), 'test1.txt'), 'r')
dataString =f.read()

このコードは、ダウンロードしたテキストファイルを開いているだけです。次に何をすべきかわかりません。私は完全に立ち往生しています。私を助けてください。アドバイスやヒントをいただければ大丈夫です..

score 1 · Accepted Answer

一意の単語の数を数えたい場合は、「こんにちは」などの計算に干渉することなくすべてを数えるために、このようなことを行う必要があります。

print len(set(re.findall('\w+', dataString.lower()))) # Number of unique words
print len(re.findall('\w+', dataString.lower())) # Total number of words

特定の単語のカウント数を表示するには、リスト内包表記を使用できます。

words = re.findall('\w+', dataString.lower())
print len([word for word in words if word == 'hello'])

または、countを使用できます。

print words.count('hello')

score 1 · Accepted Answer

ではdataString、各単語を調べて数えます。そのため、文字列内の個々の単語を識別する方法が必要になります。string.splitメソッドまたは正規表現を使用して、単語をもう少しきれいに分割できます。

score 0 · Accepted Answer

私はあなたの問題を解決しませんが、Stackoverflow はあなたの仕事をするために作成されたものではないため、あなたがそれぞれのことをどのように行うかを説明しますが、あなたがしなければならないことを指摘します:

単語数:

dataString.split()各項目がファイル内の単語であるリストを返すので、そうしましょう

単語が繰り返される回数:

特定の単語が何回出現するかを確認したい場合は、リスト内のすべての単語を取得する方法がわかりました。そのリストを反復処理するだけで、独自のカウンターを使用して単語が出現するたびに 1 を追加できin dataString.split()ます。コレクション Counter クラスを使用できます

score -1 · Accepted Answer

単語数を取得するには、次を使用します

f = open('test.txt, 'r')
text = f.read()
f.close()
words = text.split(None)
ec = len(words)

ファイル内で単語が何回出現するかを取得するには、次を追加します。

swc = 0
for word in words:
    if word == 'word2count':
        swc +=1`.

python - ダウンロードしたテキストファイルをpythonで解析できるプログラムを作りたい

4 に答える 4

Related

Reference