問題タブ [word-frequency]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
4631 参照

solr - SOLR インデックス内の単語の合計頻度をカウントする

SOLR インデックスで単語を検索すると、この単語を含むドキュメントのドキュメント カウントが取得されますが、その単語がドキュメントに複数回含まれている場合でも、合計カウントはドキュメントごとに 1 のままです。

返されたすべてのドキュメントが、フィールドに検索された単語が含まれている回数としてカウントされる必要があります。

Solr で単語頻度SOLR 用語頻度を読み取り、用語ベクトル コンポーネントを有効にしましたが、機能しません。

私は自分のフィールドを次のように設定しました:

しかし、次のクエリを作成すると:

カウントがありません:

「numFound」の値は 12 ですが、「Peter Pan」という単語は 12 のドキュメントすべてに 20 回含まれています。

私が間違っているところを見つけるのを手伝ってくれませんか?

どうもありがとうございました!

0 投票する
3 に答える
3553 参照

python - 辞書を使用した単語の頻度

私の問題は、辞書を使用して単語数を表示し、キーの長さを参照する方法がわからないことです。たとえば、次のテキストを考えてみましょう。

次に、必要な出力は次のようになります

3 2
2 3
0 5

与えられたサンプル テキストには、長さ 2 の単語が 3 つ、長さ 3 の単語が 2 つ、長さ 5 の単語が 0 つあるためです。

リストに単語の出現頻度を表示する限り、次のようになりました。

次の形式で辞書を表示します。

0 投票する
1 に答える
8763 参照

tm - R: コーパスで最も頻繁に使用される単語のグループを見つける

Rのテキストコーパスで最も頻繁に使用される用語だけでなく、表現(複数の単語、単語のグループ)も簡単に見つける方法はありますか?

tm パッケージを使用すると、次のような最も頻繁に使用される用語を見つけることができます。

関数を使用して最も頻繁に使用される単語に関連する単語を見つけることができるためfindAssocs()、これらの単語を手動でグループ化できます。しかし、コーパスでこれらの単語グループの出現回数を見つけるにはどうすればよいでしょうか?

どうも

0 投票する
2 に答える
343 参照

r - 用語頻度マトリックス

次のような文字列があります。

m<-"abcdabcdbcadacbddabcc..."

次のようなマトリックスを生成したいと思います。

ここに画像の説明を入力

どうすればrでそれを行うことができますか?

0 投票する
1 に答える
208 参照

java - 単語頻度ループ

このコードの目的は、main メソッド java を使用して、ユーザーから入力された断片テキストを分析するプログラムを作成することでした。

彼らは、プログラムによって分析されるスキャナーにテキストを入力することによってこれを行います。分析では、単語の頻度、平均の長さを生成し、結果をアスタリスク グラフの形式で出力します。単一の「*」は 1 つの単語を表します。

たとえば、「Birds can Maybe fly」は次の結果を出力するはずです。

しかし、代わりに私はこれを取得しています

コードを変更して、2 番目のセクションで得られたものではなく、最初のセクションで見たものを出力する方法はありますか。

コード:

0 投票する
2 に答える
1437 参照

java - リストで最も多く発生する文字列の上位 k を取得するための O(N) ソリューションはありますか?

問題は次のとおりです。文字列のリストと整数 k が与えられた場合、頻度に基づいて降順で最も頻繁に出現する上位 k 個の単語を返します。これは O(N) である必要があります。ここで、N は文字列のリストの長さです。

一般的な解決策は、(単語、頻度) をハッシュ テーブルに格納し、ハッシュ テーブルを頻度で並べ替え、上位 k 単語を出力することです。ただし、頻度によるソートには O(NlgN) かかるため、これは O(N) ではありません。

O(N) ソリューションが実際に存在するかどうか疑問に思っています。k 番目に出現頻度の高い単語を取得し、残りの頻度を並べ替える場所をクイック選択することを考えましたが、それは O(N + klgk) であり、k が N の場合でも O(NlgN) です。