2

分析には以下が含まれます。

  1. テキストデータの単語数は?
  2. キーワードがテキスト データに何回出現するか。

    import os
    f= open(os.path.join(os.getcwd(), 'test1.txt'), 'r')
    dataString =f.read()
    

このコードは、ダウンロードしたテキスト ファイルを開いているだけです。次に何をすべきかわかりません。私は完全に立ち往生しています。私を助けてください。アドバイスやヒントをいただければ大丈夫です..

4

4 に答える 4

1

一意の単語の数を数えたい場合は、「こんにちは」などの計算に干渉することなくすべてを数えるために、このようなことを行う必要があります。

print len(set(re.findall('\w+', dataString.lower()))) # Number of unique words
print len(re.findall('\w+', dataString.lower())) # Total number of words

特定の単語のカウント数を表示するには、リスト内包表記を使用できます。

words = re.findall('\w+', dataString.lower())
print len([word for word in words if word == 'hello'])

または、countを使用できます。

print words.count('hello')
于 2013-05-05T14:57:04.717 に答える
1

ではdataString、各単語を調べて数えます。そのため、文字列内の個々の単語を識別する方法が必要になります。string.splitメソッドまたは正規表現を使用して、単語をもう少しきれいに分割できます。

于 2013-05-05T14:43:56.363 に答える
0

私はあなたの問題を解決しませんが、Stackoverflow はあなたの仕事をするために作成されたものではないため、あなたがそれぞれのことをどのように行うかを説明しますが、あなたがしなければならないことを指摘します:

単語数:

dataString.split()各項目がファイル内の単語であるリストを返すので、そうしましょう

単語が繰り返される回数:

特定の単語が何回出現するかを確認したい場合は、リスト内のすべての単語を取得する方法がわかりました。そのリストを反復処理するだけで、独自のカウンターを使用して単語が出現するたびに 1 を追加できin dataString.split()ます。コレクション Counter クラスを使用できます

于 2013-05-05T14:53:19.073 に答える
-1

単語数を取得するには、次を使用します

f = open('test.txt, 'r')
text = f.read()
f.close()
words = text.split(None)
ec = len(words)

ファイル内で単語が何回出現するかを取得するには、次を追加します。

swc = 0
for word in words:
    if word == 'word2count':
        swc +=1`.
于 2013-05-05T14:52:19.767 に答える