問題タブ [word-frequency]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
database - 単語頻度とテキスト分析のためのデータベースの設計
単語の頻度と傾向の分析を行いたい記事がたくさんあります。
記事には、日付、作成者、テーマ、件名のタグが付けられています。これらのタグを使用してデータをスライスし、特定の著者 (または著者のグループ)、テーマ、または主題に使用される最も一般的な単語を取得できるようにしたいと考えています。全体的および経時的 (傾向)。
このデータベース (リレーショナルまたはその他) をどのように設計するか、またはデータ キューブを作成する必要がありますか?
algorithm - 大量のテキストから最も一般的なフレーズを見つける効率的なアルゴリズム
大量のテキストから最も一般的なフレーズを収集するプログラムを作成することを考えています。問題が単語を見つけるだけに縮小された場合、新しい単語をそれぞれハッシュマップに格納し、出現ごとにカウントを増やすのと同じくらい簡単になります。しかし、句の場合、文の各順列をキーとして保存することは実行不可能に思えます。
基本的に問題は、十分な長さのテキストから考えられるすべてのフレーズを抽出する方法を見つけることに絞り込まれます。フレーズを数えて、出現回数でソートするのは簡単です。
python - トークン化されたリストで中国語の単語の頻度を数える方法は?
私はpython 2.7を使用しています。中国語の単語の頻度を数えたいと思います。トークン化されたリストを使用してこれを行うにはどうすればよいですか? 次のステップで文がどこにあるかを突き止めたいと思います。ですから、単語の頻度を数えて、同時に各単語の開始点と終了点を教えてくれることを願っています。
トークン化とは関係のない入力ファイルから単語の頻度を数えようとしました。しかし、それはまた私に間違った結果をもたらします。カウンター部分については、次のように表示されます: Counter({u'\u7684': 1}) 、しかし私の予想される結果は Counter({'的': 27}) です
python - テキストファイル内の単語を見つける方法は?
テキスト ファイルに含まれる各単語の数をカウントする必要がある Python プログラムを作成しています。
python - 柔軟な型 plt.hist で reduce を実行できません
何千もの要素とそれぞれの周波数を含むデータセットがあります。上位 10 個の要素のヒストグラムをプロットする必要があります。
やった:
このエラーが発生しました:
何か案が??私のデータは次のようになります:
python - Python でのレーベンシュタイン距離ループ
一連の参照単語 (スペルが正しい) があり、ユーザー入力単語を取得する必要があります。入力単語は、レーベンシュタイン距離を使用して参照リストと比較され、コストが最も低い参照リストから単語を返す必要があります。さらに、その参照リストは頻度でソートされるため、頻度が高いほど上部に表示されます。2 つの単語の距離が同じ場合は、頻度の高い単語が返されます。「NWORDS」は頻度順にソートした参考文献リストです。「候補」はユーザー入力語です。
コード: