問題タブ [word-frequency]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
11995 参照

postgresql - Postgresの文字列からの単語の頻度?

Postgresのテキスト文字列を含むフィールドから、個別の単語とそれぞれのカウントを識別することは可能ですか?

0 投票する
4 に答える
11068 参照

python - Pythonの単語頻度プログラム

たとえば、words = ["hello"、 "test"、 "string"、 "people"、 "hello"、 "hello"]という単語のリストがあり、単語の頻度を取得するために辞書を作成したいとします。 。

辞書が「カウント」と呼ばれているとしましょう

私が本当に理解していないこの部分は、counts.get(w.0)だけです。この本によると、通常はcounts [w] = counts [w] + 1を使用しますが、新しい単語に初めて遭遇したときは、countsに含まれないため、ランタイムエラーが返されます。それはすべてうまくてダンディですが、counts.get(w、0)は正確に何をしますか?具体的には、(w、0)表記とは何ですか?

0 投票する
2 に答える
3103 参照

java - ドキュメント内の単語数の頻度

1000 個の txt.files があるディレクトリがあります。1000 個のドキュメントで単語が何回出現するかを知りたいです。つまり、「牛」という単語が X で 100 回出現したとしても、1 回としてカウントされます。別のドキュメントで発生した場合は、1 ずつ増加します。したがって、すべてのドキュメントに「cow」が含まれている場合、最大値は 1000 です。他の外部ライブラリを使用せずにこれを簡単に行うにはどうすればよいですか。これが私がこれまでに持っているものです

0 投票する
1 に答える
1237 参照

python - 単語頻度から ARFF を作成する

テキストで発生する頻度を含む単語のリストを提供するコードがいくつかあります。コードが上位10単語を自動的にARFFに変換するようにしようとしています

@RELATION 単語頻度

@ATTRIBUTE 単語文字列 @ATTRIBUTE 頻度 数値

上位 10 件は頻度とともにデータとして表示されます。

現在のコードでこれを行う方法に苦労しています

これを行う方法は本当に私の頭を悩ませています!

0 投票する
2 に答える
4144 参照

python - 機能語の頻度を計算する

Python/NLTKで機能語の頻度を計算したいと思います。私はそれについて2つの方法があります:

  • 品詞タガーを使用して、機能する単語を構成する POS タグを要約します。
  • 機能語のリストを作成し、簡単な検索を実行する

最初のケースの問題点は、データにノイズがあり、どの POS タグが機能語として構成されているか (確かに) わからないことです。2 番目のケースの問題点は、リストがなく、データにノイズがあるため、ルックアップが正確ではないことです。

私は、より正確な結果をもたらす2番目または他の例よりも最初の例を好みます。

0 投票する
1 に答える
91 参照

nlp - すべての英単語の頻度ランクを含むリストへのリンク

すべての英語の単語の頻度ランクを含むリストへのリンクを知っている人はいますか. 6 か月ほど前に、このリストを含む 'wiki' で 1 つのリストを見つけましたが、残念ながらブックマークを付けていなかったため、同じリンクまたはより適切なリンクを見つけることができません。誰かがこのリンクまたはそれ以上のものを持っている場合は、投稿してください。

0 投票する
3 に答える
528 参照

vim - Vim、単語頻度関数、フランス語のアクセント

最近、Vim Tip n° 1531 (ファイルの単語頻度統計) を発見しました。

提案されたように、次のコードを .vimrc に入れました

アクセントやその他のフランス語の仕様 (ラテン語の小文字の合字 a または o など) を除いて、問題なく機能します。

この関数を自分のニーズに合わせるには、この関数に何を追加すればよいですか?

前もって感謝します

0 投票する
1 に答える
212 参照

php - 配列と単語の頻度をマージする

だから私は41段落のドキュメントを循環しています。段落ごとに、最初に文字列を配列に分割し、次に段落の単語頻度を取得しようとしています[1]。次に、すべての段落のデータを組み合わせて、ドキュメント全体の単語の頻度を取得します。

特定の段落の「単語」とその「頻度」を示す配列を取得できますが、各段落の結果をマージして「ドキュメント全体の単語頻度」を取得するのに問題があります。これが私が持っているもの:

今私が得る結果は次のとおりです。

1:アレイ2:アレイ3:アレイ4:アレイ

どんな助けでも大歓迎です。

0 投票する
5 に答える
747 参照

wolfram-mathematica - 単語頻度データのリストの組み合わせ

これは明らかな質問のようですが、リストのチュートリアルとドキュメントは近日公開されません。これらの問題の多くは、私のテキストファイルのサイズ(数百MB)と、システムで管理できるものにまとめようとする試みに起因しています。その結果、私はセグメントで作業を行っており、現在、結果を組み合わせようとしています。

私は複数の単語頻度リストを持っています(そのうちの約40)。リストは、Import []を介して取得することも、Mathematicaで生成された変数として取得することもできます。各リストは次のように表示され、Tally[]およびSort[]コマンドを使用して生成されています。

{{"the"、42216}、{"of"、24903}、{"and"、18624}、{"n"、16850}、{"in"、
16164}、{"de"、14930}、{ "a"、14660}、{"to"、14175}、{"la"、7347}、{"was"、6030}、{"l"、5981}、{"le"、5735}、<< 51293 >>、{"食肉処理場"、1}、{"食肉処理場"、1}、{"食肉処理場"、1}、{"食肉処理場"、1}、{"食肉処理場"、1}、{"食肉処理場"、1} 、{"abaiss"、1}、{"aback"、1}、{"aase"、1}、{"aaijaut"、1}、{"aaaah"、1}、{"aaa"、1}}

2番目のファイルの例を次に示します。

{{"the"、30419}、{"n"、20414}、{"de"、19956}、{"of"、16262}、{"and"、
14488}、{"to"、12726}、{ "a"、12635}、{"in"、11141}、{"la"、10739}、{"et"、9016}、{"les"、8675}、{"le"、7748}、<< 101032 >>、{"食肉処理"、1}、{"食肉処理"、1}、{"食肉処理"、1}、{"食肉処理"、1}、{"食肉処理"、1}、{"食肉処理"、1} 、{"aback"、1}、{"aase"、1}、{"aaijaut"、1}、{"aaaah"、1}、{"aaa"、1}}

頻度データが集約されるようにそれらを組み合わせたいと思います。つまり、2番目のファイルに30,419回の「the」があり、最初のファイルに結合されている場合、72,635回の出現があることを返す必要があります(コレクション)。

0 投票する
1 に答える
801 参照

mongodb - 単語頻度データの保存

Mongoを使用して単語頻度データを保存しようとしています。個人が各単語を使用する頻度を計算できるように、各単語をユーザーに関連付ける必要があります。現在、私の単語コレクションは次のようになっています。

これは明らかに「1対1」ベースでのみ機能し、良くありません。

私は、これをユーザーと単語の間の「1対多」の関係ショップにするための最善の方法を模索しています。次のように、ユーザーの関係を単語コレクションに保存しますか?

または、代わりに単語数をユーザーコレクションに添付しますか?

2番目のアプローチの明らかな欠点は、同じ単語が異なるユーザー間で使用されることです。したがって、単一の単語を収集すると、データサイズを抑えるのに役立ちます。

誰かが私がここで何をすべきかについて私にアドバイスできますか?ドキュメントで見落としている可能性のある方法はありますか?