問題タブ [word-frequency]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
clojure - ビッグデータからの clojure 頻度辞書
独自の単純ベイズ分類器を作成したいのですが、次のようなファイルがあります。
(これはスパムとハム メッセージのデータベースです。最初の単語はスパムまたはハムを指し、最後までのテキストはメッセージです (サイズ: 0.5 Mb) ここからhttp://www.dt.fee.unicamp.br/~tiago/smsspamcollection/ )
そして、次のようなハッシュマップを作成したい: {"spam" {"go" 1, "until" 100, ...}, "ham" {......}} すべての値が頻度であるハッシュマップ単語のマップ (ハムとスパムを別々に)
私は知っています、どのようにpythonまたはc ++でそれを行い、私はclojureで作成しましたが、私のソリューションは大きなデータで失敗しました(stackoverflow)
私の解決策:
私はそれが間違っている場所を見つけようとして、これを書きました
エラー:
これをより良く/効果的にするのを手伝ってくれる人はいますか? PS私の書き間違いで申し訳ありません。私の母国語ではない英語。
java - 複数のファイルの上位頻出単語を取得できません
こんにちは、htmlfilesフォルダーに3つのhtmlファイルを保存しました。これらのファイルは、tikaを使用してテキストを抽出し、htmltextfilesフォルダーのテキストファイルに保存しました。htmltextfiles フォルダー内のテキスト ファイルごとに、ストップワードを削除し、頻繁に発生する上位 10 の単語を表示しました。私のhtmltextfilesには以下が含まれています:
以下は私のJavaプログラムです
このコードでは、出力を下回っています
問題は、1 つのファイルのキーワードが次のファイルのキーワードに追加されていることです。私の意図は、以下の出力を取得することです。
誰でもこれを達成する方法を教えてください。私は多くの方法で試しましたが、必要な出力が得られませんでした。助けてください..ありがとう
word-frequency - 単語頻度のグラフ
テキスト入力から、この図のような単語頻度グラフを生成する関数を作成したいと思います。この写真はレポートから取ったものなので、どうやって撮ったのかはわかりません。
python - Pythonを使用して疎行列を密形式に変換する方法
私はスパースであると信じている次の行列を持っています。x.dense 形式を使用して密に変換しようとしましたが、うまくいきませんでした。これを行う方法に関する提案はありますか?、ありがとう。
誰かが以下の解決策を提案しましたが、より良い方法はありますか?
mx.todense()。意図した出力は、[[2,1,1,1,1,3,4], [1,5,2,1,1,1,1], [2,1,1,1, 2,1,1,1]]
r - Rを使用した単語頻度のリスト
tm パッケージを使用してテキスト分析を実行しています。私の問題は、同じ単語に関連付けられた単語とその頻度のリストを作成することです
私は通常、頻度範囲内の単語のリストを生成するために次のコードを使用します
これを自動化して、すべての単語とその頻度を含むデータフレームを取得する方法はありますか?
私が直面しているもう1つの問題は、ドキュメントマトリックスという用語をデータフレームに変換することです。大量のデータ サンプルを処理していると、メモリ エラーが発生します。これに対する簡単な解決策はありますか?
csv - Pythonを使用した2つの単語に基づく単語頻度カウント
this やthisやthisなどの 1 つの単語の単語数をカウントする方法を示すオンラインのリソースはたくさんありますが
、2 つの単語のカウント頻度の具体的な例を見つけることができませんでした。
いくつかの文字列を含む csv ファイルがあります。
だから私は出力を次のようにしたい:
もちろん、すべてのコンマ、尋問ポイントを削除する必要があります....{!, , ", ', ?, ., (,), [, ], ^, %, #, @, &, *, -, _, ;, /, \, |, }
テキストからより具体的なデータを取得するために、ここで見つけたいくつかのストップ ワードも削除します。
Pythonを使用してこの結果を達成するにはどうすればよいですか?
ありがとう!