問題タブ [word-frequency]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
252 参照

mysql - このレコード内の各単語の group_concat と頻度

これは私のデータベースです。

テーブル:

テーブル内のデータ

現時点では、次のSQLクエリを使用しています:

これは私にこの外観を与えます

でもこんな感じにしたい

0 投票する
3 に答える
4724 参照

linux - Awk:1つのテキストファイルからの単語の頻度、myFile.txtに出力する方法は?

次のようなスペースで区切られた単語を含む.txtファイルがあるとします。

そしてAwk関数

コンソールに次の出力が表示されます。

myFile.txtに印刷する方法は? 私は実際に30万行と200万語近くあります。結果をファイルに出力することをお勧めします。


編集:使用された回答(@Sudo_Oによる):

0 投票する
1 に答える
142 参照

awk - Awk:CJKキャラクターの何が問題になっていますか?#韓国語

次のようなスペースで区切られた単語を含む.txtファイルがあるとします。

そしてAwk関数

コンソールに次の出力が表示されますが、これは韓国語の単語には無効です(英語と中国語のスペースで区切られた単語には有効です)。

それを韓国語の単語で機能させる方法は? 注:私は実際には300.000行と200万語近くあります。


編集:使用された答え:

0 投票する
1 に答える
788 参照

awk - Awk:文字-1つのテキストファイルからの頻度?

次のような多言語の.txtファイルがあるとします。

このAwk関数を使用して、スペースで区切られた単語の単語頻度をカウントしました。

エレガントを手に入れる:

文字数を数えるように変更する方法-頻度?


編集:文字の頻度については、 (@ Sudo_Oの回答)を使用しました:

単語の頻度については、次を使用します。

0 投票する
5 に答える
372 参照

c - Unicode を含むこの C コードをどのように記述すればよいですか?

このタスクに最適な言語を尋ねる同様の質問があり、Perl が答えでした。しかし、私はまだCでこれを解決する方法に興味があります.

このプログラムに、小説、新聞、ウェブページから取ったドイツ語テキストのサンプルで満たされた大きなテキスト ファイルを提供したいと考えています。最も一般的な単語で並べ替えられた、テキスト ファイル内のすべての単語の頻度リストが必要です。最も一般的な 3000 のドイツ語のリストが必要です。

これが単なる ASCII の問題であるとすれば、これは私にとって子供の遊びです。午前中ずっと Unicode について読んだ後、それが地雷原であることに本当に驚きました。

これはCでどのように行われますか?

Python で何かをまとめた友人がいましたが、彼はまだ初心者で、1.4 MB のテキスト ファイルでコードを作成するのに約 30 分かかりました。

0 投票する
1 に答える
445 参照

python - ファイル全体のリストから単語の頻度をカウントする方法は?

3 つの列を持つファイルがあります (\t で区切られています。最初の列は単語、2 番目は見出し語、3 番目はタグです)。一部の行は、ドットまたはコンマのみで構成されています。

ユーザーがレンマ "in" を検索するとします。「in」の頻度と「in」の前後の補題の頻度が欲しい。そこで、コーパス全体での「結合」、「危険」、「制限」、「ザ」の頻度が必要です。結果は次のようになります。

それ、どうやったら出来るの?使ってみましたがうまくいきlemma_counter = {}ません。

私はPython言語の経験がありませんので、何か間違っている場合は修正してください。

0 投票する
1 に答える
2463 参照

r - R : R のドキュメント用語マトリックス内のドキュメント全体で用語「詐欺」に関連する上位 10 用語を検索する

1945.txt、1978.txt.... 2013.txt という年ごとに名前が付けられた 39 個のテキスト ファイルのコーパスがあります。

それらを R にインポートし、TM パッケージを使用して Document Term Matrix を作成しました。用語「詐欺」に関連する単語が 1945 年から 2013 年までの何年にもわたってどのように変化したかを調査しようとしています。目的の出力は、行のタイトルとして年を、列として上位 10 または 5 の用語を含む 39 x 10/5 のマトリックスになります。

どんな助けでも大歓迎です。

前もって感謝します。

私の TDM の構造:

0 投票する
1 に答える
491 参照

indexing - SphinxSearch: リアルタイム インデックスから単語の頻度を構築することは可能ですか?

回転を使用してソースから生成されたインデックスからの頻度でストップワードのリストを作成できることを私は知っています。

これはリアルタイム インデックスでも実行できますか? はいの場合、どのように?