問題タブ [word-frequency]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
mysql - Rails のデータベースで単語の頻度をカウントする
2 つの列 (名前と説明) を持つデータベースを持つ Rails アプリがあります。いずれかの列ですべての一意の単語を検索し、出現頻度に従ってランク付けするスクリプトを実行したいと考えています。これは、インデックスを生成するためのものです。
特定の単語 (「the」や「a」など) を除外する必要があること、および複数形のためにカウントが不完全になる可能性があることを理解しています。しかし、私はこれを後処理で手動で処理して喜んでおり、すべての単語とその頻度を教えてくれる基本的なスクリプトを探しています。
これを実行するコードや、その方法に関するガイダンスはありますか?
php - 複数のファイルの単語頻度を計算する
これは、ファイル内の個別の単語の頻度を調べるために実装した私のコードです。これは機能しています。
今私がやりたいのは、10個のテキストファイルがあるとしましょう。10個のファイルすべてで単語の単語の頻度を数えたい、つまり、10個のファイルすべてで単語「スタック」の頻度を見つけたい場合単語スタックがすべてのファイルに表示される回数。その後、すべての個別の単語に対してそれを実行します。
私は単一のファイルに対してそれを行いましたが、それを複数のファイルに拡張する方法を考えることができません。助けてくれてありがとう、私の悪い英語をお詫びします
java - Solr の単語頻度
Solrを使用して単語の頻度を取得しようとしています。このクエリを実行すると:
solr は私に次のような周波数を与えます。
しかし、単語を数えると; word2 の実際のカウント数は 13 であることがわかりました。Solr は、フィールド内の同じ単語を 1 つとしてカウントします。
例えば;
フィールドのテキストは構成されています。word2 word5 word7 word9 word2
. Solr は word2 のカウント数 2 を返さず、代わりに 1 を返します。以下の両方の文の word2 のカウントとして 1 を返します。
そのため、周波数が間違って返されます。ファセット フィールドを確認しましたが、適切なパラメーターが見つかりませんでした。文中の同じ単語をカウントするように修正するにはどうすればよいですか?
edit : schema.xml の関連部分:
java - Javaで複数のファイル/ドキュメントの単語頻度をカウントする
Javaで複数のファイル/ドキュメントへの単語の頻度をカウントしたい.
例えば
したがって、すべてのファイルの単語頻度をカウントしたいと思います。
から単語を読み取り、file
に格納<wordname, worcount>
するメソッドがありますLinkedHashMap
。それにもかかわらず、これはすべてのファイルの特定の単語の頻度をカウントしますが、ファイルごとに単語の頻度を個別にカウントしたいと思います。
誰にも解決策はありますか?
それから、私はこれを書きました:
しかし、それは何も印刷しません。
api - 検索エンジンを使用して単語の頻度を取得する
単語が出現するWebページの量を私に与えることができる良いサービスはありますか?
正規化されたGoogle距離を計算するためにこれが必要です。数年前、Google Web検索APIがありました。これを呼び出して、オカレンスと検索結果(実際には必要ありません)を取得できます。
このWeb検索APIは現在Googleカスタム検索APIに置き換えられていますが、このサービスのコストは私の目的には高すぎます。
BingSearchAPIとYahoo! BOSS Search APIは、最大50の検索結果のみを返し、単語の出現の推定値を返さないため、オプションでもありません。
すでにインターネットでかなりの検索を行っていますが、必要な情報を提供するものを見つけることができません。
提案をありがとう。
prolog - プロローグ、大きなテキストでの単語の頻度
かなり長いテキストが与えられた場合、特定の単語がその中に何回出現するかを調べる必要があります。シャーロックの小説のように、シャーロックと入力すると、200 回またはそれに類するものが返ってきます。
これまでのところ、実装したこの関数を使用してリストを読み取る方法を知っています。以下に投稿します。私はすべての助けに感謝します.次に何をすべきか、どのようにすべきかわかりません.
read_list(L) :- read(N), N \= end_of_file -> L = [N|Ns], !, read_list(Ns) ; L = [] .
ありがとうございました。
python - 単語頻度カウント奇妙な結果
私のコーパスで単語頻度カウントを行うと、結果は不正確に見え(私の気持ちでは最も頻繁な単語ではなく、頻度カウントは1つか2つだけです)、一部の結果は「over\xe2」および「\xad」として表示されます。誰か助けてもらえますか?
コードは元々オランダ語ですが、これは翻訳されていないコードです。
python - Pythonでの1Gbテキストファイルの単語頻度計算
約 2 億 300 万語であるサイズ 1.2 GB のテキスト ファイルの単語頻度を計算しようとしています。次の Python コードを使用しています。しかし、それは私にメモリエラーを与えています。これに対する解決策はありますか?
これが私のコードです:
そして、これが私が受け取ったエラーです:
matlab - MATLAB を使用した単語頻度グラフ プロット
次のような 2 つの列に約 1,000 万の一意の単語とその頻度を含む大きなテキスト ファイルがあります。
Y軸に頻度、X軸に単語を入れてグラフをプロットしたいと思います。「load」コマンドを使用しましたが、機能していないようです。次のエラーが表示されます。
グラフをプロットする方法の解決策はありますか?
sql - 単語の頻度を巨大なデータセットに保存する
ドキュメント クラスタリングの問題に取り組んでいます。そのためには、ドキュメントのデータセットの単語頻度を取得する必要があります。
現時点では、簡単なアプローチを使用しています。単語テーブルを作成し、データセットに含まれるドキュメントの数と同じ数の列を追加して、次のようなものを取得します
このアプローチは、多少遅くても、小さなデータセット (100 個未満のドキュメントを含む) で機能します。問題は、それぞれ 700 以上のドキュメントを含む巨大なドキュメントを処理する必要があることです。これを処理するためのよりスマートな方法が必要であると感じています。問題は、他に何も考えられないことです。
問題は、ドキュメントごとの単語の頻度を効率的に追跡するにはどうすればよいかということです。
PS: ドキュメントあたりの単語数またはデータセットのサイズはどちらも不明ですが、合理的な上限はドキュメントあたり 2000 語、データセットあたり 2000 ドキュメントであると考えてください。