問題タブ [tf-idf]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
tf-idf - コサイン類似度問題
ドキュメント1とドキュメント2の用語のtf-idf値を計算しました..今、これらのtf-idf値の使用方法がわかりません...基本的に、2つのドキュメント(私の場合はWebページ)間の類似性を見つけたいです。コサイン類似度、ジャカード係数を実装して類似度を見つける方法を教えてください... c#コードをいただければ幸いです..plsの助けを借りて...ありがとう
similarity - コサイン類似性について
私はドキュメント間のコサイン類似性を見つけています..私はこのようにしました
D1 =(8,0,0,1)ここで、8,0,0,1は、項t1、t2、t3、t4のtf-idfスコアです。
D2 =(7,0,0,1)
cos(theta)=(56 + 0 + 0 + 1)/ sqrt(64 + 49)sqrt(1 +1)
になります
cos(シータ)= 5
さて、この値から何を評価しますか... cos(theta)= 5がそれらの間の類似性について何を意味するのかわかりません...私は正しいことをしていますか?
frequency - 用語頻度計算
ドキュメント内の用語の用語頻度を計算する必要があります...私がしたことは、単に「その用語がそのドキュメントに出現する回数を数えただけです」...その用語が138回出現した場合、tf値を138としました....私は正しくやっています..?? どこかで読んだように、termfrequency (tf)= term count/ no of words in the document...これが true の場合、ドキュメント内の単語数を計算するにはどうすればよいですか?
plsは返信..ありがとう
java - データセットの作成: テキスト ドキュメントから特徴を抽出する (TF-IDF)
いくつかのテキスト ファイルからデータセットを作成し、それらをフィーチャのベクトルとして記述しなければなりません。
このようなもの:
ベクトルの各位置は単語を表し、スコアは TF-IDF のようなもので与えられます。
このためのライブラリ/ツール/何かを知っていますか? (ジャバの方がいい)
machine-learning - Ngram IDF スムージング
IDF スコアを使用して、非常に膨大なドキュメントのコーパスから興味深いフレーズを見つけようとしています。
基本的に、Amazon の Statistically Improbable Phrases のようなものが必要です。つまり、ドキュメントを他のすべてのドキュメントと区別するフレーズです
。私が直面している問題は、データ内の一部の (3,4)-gram が超高 idf を実際にコンポーネントで構成されていることです。非常に低いidfを持つユニグラムとバイグラム..
たとえば、「あなたは試したことがない」は非常に高いidfを持ちますが、コンポーネントのユニグラムのそれぞれは非常に低いidfを持っています
.. n グラムとそのすべてのコンポーネント (nk) グラムの頻度を文書化し、この句が親文書を残りの文書からどの程度区別するかについて、より意味のある尺度を返します。
確率を扱っている場合は、補間モデルまたはバックオフ モデルを試します。これらのモデルがうまく機能するためにどのような仮定/直感を活用しているのか、IDF スコアに対してどの程度うまく機能するのかはわかりません。
誰もがより良いアイデアを持っていますか?
python - 異なる長さのベクトルのコサイン類似度?
TF-IDFを使用してドキュメントをカテゴリに分類しようとしています。いくつかのドキュメントの tf_idf を計算しましたが、これらのドキュメントの 2 つの間のコサイン類似度を計算しようとすると、次のようなトレースバックが表示されます。
len(u)==len(v) が正しいアプローチになるようにベクトルをスライスしていますか? コサインの類似性は、異なる長さのベクトルで機能すると思います。
私はこの機能を使用しています:
また、ベクトル内の tf_idf 値の順序は重要ですか? それらをソートする必要がありますか?それとも、この計算では重要ではありませんか?
machine-learning - スコアリングされた TF-IDF コレクションにドキュメントを追加しますか?
すでに TF-IDF が計算されているドキュメントの大規模なコレクションがあります。コレクションにさらにドキュメントを追加する準備をしています。データベース全体を再処理せずに新しいドキュメントに TF-IDF スコアを追加する方法があるかどうか疑問に思っています。
java - Luceneインデックスのクエリからベクトル空間モデル(tf-idf)を取得する
luceneクエリの結果からベクトル空間モデル(tf-idfの重み付けを使用)を取得する必要がありますが、その方法がわかりません。簡単なようですが、この段階で、皆さんの1人が私を正しい方向に向けることができるかもしれません。
私はしばらくの間これを行う方法を理解しようとしてきました、そして私が読んだものが私がまだ必要としているものである方法を理解していないか(おそらく)解決策が私のに投稿されていません特定の問題。クエリ結果から直接VSMを計算しようとしたこともありますが、私のソリューションは非常に複雑です。
編集:これに遭遇した他の人のために、ここにはるかに明確な質問の解決策があります。私が必要とするものは、IndexReader.getTermFreqVector(String field、int docid)メソッドによって取得できます。
残念ながら、これは私が作業しているインデックスが用語頻度ベクトルを保存していないため、私には機能しません。したがって、私はまだこれについてさらに助けを探していると思います!
sql - SQLを使用してTF-IDFを計算する
DBに、フリーテキストフィールド列を含むテーブルがあります。
各単語がすべての行に表示される頻度を知りたいのですが、すべての単語のTF-IDFを計算することもできます。ここで、私のドキュメントは行ごとのそのフィールドの値です。
SQLクエリを使用してこれを計算することは可能ですか?そうでない場合、またはもっと簡単な方法がある場合は、私にそれを教えていただけますか?
どうもありがとう、
ジョン
java - Luceneドキュメントの重心との類似度を計算する
Luceneから取得した結果に対して単純なクラスタリングアルゴリズムを実行するには、Luceneの2つのドキュメント間のコサイン類似度を計算する必要があります。また、各クラスターの重心を表す重心ドキュメントを作成できる必要があります。
私が考えることができるのは、TermFreqVectorsとOverall Termの頻度を使用してデータを設定し、tf-idfの重み付けを使用して独自のベクトル空間モデルを構築することだけです。
私の質問は:これは効率的なアプローチではありません、これを行うためのより良い方法はありますか?
これは少し不明瞭に感じるので、質問を改善する方法についての提案もありがたいです。