分析には以下が含まれます。
- テキストデータの単語数は?
キーワードがテキスト データに何回出現するか。
import os f= open(os.path.join(os.getcwd(), 'test1.txt'), 'r') dataString =f.read()
このコードは、ダウンロードしたテキスト ファイルを開いているだけです。次に何をすべきかわかりません。私は完全に立ち往生しています。私を助けてください。アドバイスやヒントをいただければ大丈夫です..
一意の単語の数を数えたい場合は、「こんにちは」などの計算に干渉することなくすべてを数えるために、このようなことを行う必要があります。
print len(set(re.findall('\w+', dataString.lower()))) # Number of unique words
print len(re.findall('\w+', dataString.lower())) # Total number of words
特定の単語のカウント数を表示するには、リスト内包表記を使用できます。
words = re.findall('\w+', dataString.lower())
print len([word for word in words if word == 'hello'])
または、countを使用できます。
print words.count('hello')
ではdataString
、各単語を調べて数えます。そのため、文字列内の個々の単語を識別する方法が必要になります。string.split
メソッドまたは正規表現を使用して、単語をもう少しきれいに分割できます。
私はあなたの問題を解決しませんが、Stackoverflow はあなたの仕事をするために作成されたものではないため、あなたがそれぞれのことをどのように行うかを説明しますが、あなたがしなければならないことを指摘します:
単語数:
dataString.split()
各項目がファイル内の単語であるリストを返すので、そうしましょう
単語が繰り返される回数:
特定の単語が何回出現するかを確認したい場合は、リスト内のすべての単語を取得する方法がわかりました。そのリストを反復処理するだけで、独自のカウンターを使用して単語が出現するたびに 1 を追加できin dataString.split()
ます。コレクション Counter クラスを使用できます
単語数を取得するには、次を使用します
f = open('test.txt, 'r')
text = f.read()
f.close()
words = text.split(None)
ec = len(words)
ファイル内で単語が何回出現するかを取得するには、次を追加します。
swc = 0
for word in words:
if word == 'word2count':
swc +=1`.