問題タブ [word-frequency]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sql - SQL Server 2008 の列に表示されるすべての単語の単語数
'ticket_diary_comment'
という列を持つ というテーブルがあります'comment_text'
。この列にはテキスト データが入力されます。この列全体で出現するすべての単語の頻度を取得したいと思います。元:
私が欲しいもの:
出力からストップ ワードも削除したことに注意してください。特定の単語の頻度を計算することは難しくありませんが、列に表示されるすべての単語をカウントしてストップ ワードを削除するものを探しています。
この問題について何か助けていただければ幸いです。また、このクエリを大規模なデータセット (約 1 TB) に適用する必要があるため、パフォーマンスが懸念されます。
r - コーパス内の文字ベクトル要素の数を取得する
私の目標は、語彙ベースの感情分析に R を使用することです!
2 つの文字ベクトルがあります。1 つは肯定的な言葉で、もう 1 つは否定的な言葉で。例えば
私は今、何千ものニュース記事のコーパスを持っており、記事ごとに、私のベクトル pos と neg の要素が記事にいくつ含まれているかを知りたいです。
例 (コーパス関数がここでどのように機能するかはわかりませんが、アイデアはわかります: 私のコーパスには 2 つの記事があります)
私はこのようなものを取得したい:
別の良いことは、各記事について次の情報を取得できる場合です。
(肯定語の数 - 否定語の数)/(記事内の合計単語数)
どうもありがとうございます!!
編集:
@ Victorp: これはうまくいかないようです
私が得るマトリックスはよさそうです:
しかし、私があなたのコマンドを実行すると、すべてのドキュメントでゼロになります!
何故ですか??
c++ - リンク リストの単語の頻度と並べ替え C++
テキスト ファイルから単語を読み取り、それらすべての単語をリンク リストに入れるプログラムを作成しています。ファイルには句読点がなく、単語のみです。また、リンクされたリストを、リンクされたリストでもあるプリロードされたブラックリストと比較したいと考えています。
私が達成したことは、ファイルからリンク リストをロードし、リンク リストを印刷し、サイズを確認し、単語がファイルに出現する回数の頻度をカウントし、指定された頻度を下回る単語を印刷しないことです。また、処理を改善するために、すべての単語を小文字にフォーマットすることもできました。
私が問題を抱えているのは、複数の頻度を持つ単語の出現を一度だけ出力するようにコードを正しくすることです。したがって、「the」という単語が 20 回表示された場合、次に表示されるときに「the <1>」、「the <2>」の順に出力したくありません。「the <20>」にクリアします。 「<20>」を1回印刷してほしい
ファイルの読み込み機能、印刷機能、単語の挿入機能を投稿していますclass wordCloud()
。
以下はコードです:
previous = NULL
の前に置くfree()
と、プログラムがクラッシュせず、dll メモリ処理エラーが発生しないことに気付きました。実際、私はfree()
完全に取り出すことができ、うまく機能しているようです. これがこれを行う正しい方法であるかどうかはわかりません。ノードを NULL< にポイントしただけでは、必ずしもメモリ内のデータが削除されるとは限らないように思えます。free()
ノードを使用しないかdelete()
、終了するのが不安になります。私が間違っている場合は訂正してください。または、私を直接指摘してください。
かなり、これの何が問題なのですか:
私はこれについて間違っているかもしれませんが、基本的には、リストに挿入された各単語の頻度を見つけて、頻度が最も高いノードだけが出力されるまで、その単語を含む複数のノードを削除するだけです。私はこれinsertWordDistinct(string word)
を達成するためにこれをやろうとしています。それを行う方法がわからないだけです。
java - 頻度で単語を並べ替える方法
入力テキスト ファイルを取得して配列に変換し、配列を並べ替えてから、各単語の頻度を取得します。多くのものをインポートせずに、頻度に従ってそれらを最高から最低までソートする方法を理解できません(これが私がやろうとしていることです):
これは、ソートされていない順序で頻度の単語を返します。次に例を示します。
等
これを次のようにソートしたい:
python - 機能の集約/合計を行う方法は?
IE - 最も頻度の低い、または有益なバイグラム頻度カウントを組み合わせます。
EG - シーケンスの文字ペアの頻度カウントがある場合、同様の機能をマージする良い方法は何ですか? (例: "KR" と "RK" を 1 つの機能にする、またはカウントが 0 のすべてのペアを組み合わせる..)。
scikit Learn には「病棟の凝集クラスタリング」と呼ばれるものがあることは知っていますが、それは視覚データ/ピクセルを対象としているようで、テキスト データ (タンパク質配列とバイオインフォマティクス) に興味があります。機能を連結するためのより直接的な方法がある場合は、クラスタリングを避けたいと思います。(私にはバックグラウンドがなく、以前にクラスタリングを行ったことがなく、特徴の分析は私たちにとって重要です)。ありがとう!
python - リストから中間頻度の単語を取得し、PythonでIndo WordnetをWebスクレイピングして同義語を取得する
私はPythonの初心者であり、プロジェクトでは、単語の頻度が既に含まれている単語リストコーパスを使用する必要があり、中頻度の単語を取得する必要があります。この特定のコーパスには、各列のヘッダーが含まれていません。私がやろうとしているのは、頻度の高い単語と頻度の低い単語を取得して、それらを取り除くことです。このコードを試してみましたが、失敗しました。
list1 = open('C:\Python27\bengali_wordlist_full.txt', 'r').read()
list2=[]
このコードは、降順で頻度を示します。しかし、それらすべてを私に与えるわけではありません。そして、自分が望んでいた方法でそれらを使用する方法がわかりません。この作品はうまくいきませんでした。
次に、Indo wordnet から類義語を取得するために、Web スクレイプを実行する必要があります。どうすればそれができるのかわかりません。これはバイリンガル プロジェクトであり、私はまだ解読システムを理解していません。したがって、ユニコード。
誰でも助けてもらえますか?