問題タブ [word-frequency]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

326 問題

0 投票する

1 に答える

386 参照

database - 単語頻度とテキスト分析のためのデータベースの設計

単語の頻度と傾向の分析を行いたい記事がたくさんあります。

記事には、日付、作成者、テーマ、件名のタグが付けられています。これらのタグを使用してデータをスライスし、特定の著者 (または著者のグループ)、テーマ、または主題に使用される最も一般的な単語を取得できるようにしたいと考えています。全体的および経時的 (傾向)。

このデータベース (リレーショナルまたはその他) をどのように設計するか、またはデータキューブを作成する必要がありますか?

2013-10-16T08:03:16.660

0 投票する

1 に答える

3636 参照

algorithm - 大量のテキストから最も一般的なフレーズを見つける効率的なアルゴリズム

大量のテキストから最も一般的なフレーズを収集するプログラムを作成することを考えています。問題が単語を見つけるだけに縮小された場合、新しい単語をそれぞれハッシュマップに格納し、出現ごとにカウントを増やすのと同じくらい簡単になります。しかし、句の場合、文の各順列をキーとして保存することは実行不可能に思えます。

基本的に問題は、十分な長さのテキストから考えられるすべてのフレーズを抽出する方法を見つけることに絞り込まれます。フレーズを数えて、出現回数でソートするのは簡単です。

algorithm data-structures frequency frequency-analysis word-frequency

2013-10-27T18:49:14.930

0 投票する

2 に答える

1165 参照

python - トークン化されたリストで中国語の単語の頻度を数える方法は?

私はpython 2.7を使用しています。中国語の単語の頻度を数えたいと思います。トークン化されたリストを使用してこれを行うにはどうすればよいですか? 次のステップで文がどこにあるかを突き止めたいと思います。ですから、単語の頻度を数えて、同時に各単語の開始点と終了点を教えてくれることを願っています。

トークン化とは関係のない入力ファイルから単語の頻度を数えようとしました。しかし、それはまた私に間違った結果をもたらします。カウンター部分については、次のように表示されます: Counter({u'\u7684': 1}) 、しかし私の予想される結果は Counter({'的': 27}) です

python tokenize word-frequency

2013-11-05T07:25:04.063

0 投票する

1 に答える

123 参照

python - テキストファイル内の単語を見つける方法は?

テキストファイルに含まれる各単語の数をカウントする必要がある Python プログラムを作成しています。

python file text word-frequency alphabetical-sort

2013-11-19T00:38:50.090

0 投票する

2 に答える

50086 参照

python - 柔軟な型 plt.hist で reduce を実行できません

何千もの要素とそれぞれの周波数を含むデータセットがあります。上位 10 個の要素のヒストグラムをプロットする必要があります。
やった：

このエラーが発生しました：

何か案が？？私のデータは次のようになります:

python text matplotlib word-frequency

2014-01-31T04:07:53.690

0 投票する

1 に答える

698 参照

python - Python でのレーベンシュタイン距離ループ

一連の参照単語 (スペルが正しい) があり、ユーザー入力単語を取得する必要があります。入力単語は、レーベンシュタイン距離を使用して参照リストと比較され、コストが最も低い参照リストから単語を返す必要があります。さらに、その参照リストは頻度でソートされるため、頻度が高いほど上部に表示されます。2 つの単語の距離が同じ場合は、頻度の高い単語が返されます。「NWORDS」は頻度順にソートした参考文献リストです。「候補」はユーザー入力語です。

コード：

python function for-loop levenshtein-distance word-frequency

2014-02-16T09:13:58.780

1 2 3 4 5 6 7 8 9 10

問題タブ [word-frequency]

database - 単語頻度とテキスト分析のためのデータベースの設計

algorithm - 大量のテキストから最も一般的なフレーズを見つける効率的なアルゴリズム

python - トークン化されたリストで中国語の単語の頻度を数える方法は?

python - テキストファイル内の単語を見つける方法は?

python - 柔軟な型 plt.hist で reduce を実行できません

python - Python でのレーベンシュタイン距離ループ

Reference