1

ドキュメント内の用語の用語頻度を計算する必要があります...私がしたことは、単に「その用語がそのドキュメントに出現する回数を数えただけです」...その用語が138回出現した場合、tf値を138としました....私は正しくやっています..?? どこかで読んだように、termfrequency (tf)= term count/ no of words in the document...これが true の場合、ドキュメント内の単語数を計算するにはどうすればよいですか?

plsは返信..ありがとう

4

2 に答える 2

0

ほとんどの正規表現の実装には、単語境界の概念があり\bます。したがって、1 つの単語に一致する正規表現は次のようになります\b(\w+)\b

基本的に、正規表現は次のとおりです。単語の境界に一致し、次に少なくとも 1 つの単語文字 ( \w+) に一致し、次に単語の境界に再び一致します。囲み括弧は、後で抽出できるように、一致した単語をグループに追加するだけです。これはおそらくあなたのケースでは必要ないので、必要に応じて削除できます。

少しでもお役に立てば幸いです。

于 2010-05-20T17:59:33.600 に答える
0

使用している言語/プログラムについては言及していません。ほとんどのテキスト エディターは、ドキュメント内の単語数を表示します。UNIX では、「wc -w filename」コマンドを使用できます。

于 2010-05-20T18:01:55.000 に答える