問題タブ [tf-idf]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
1470 参照

hadoop - データソースとしてHBaseを使用してドキュメントのTF-IDFを計算します

HBaseに保存されているドキュメントのTF(用語頻度)とIDF(逆ドキュメント頻度)を計算したいと思います。

また、計算されたTFをHBaseテーブルに保存し、計算されたIDFを別のHBaseテーブルに保存したいと思います。

案内してもらえますか?

BayesTfIdfDriver私はから見てきましたMahout 0.4が、私は有利なスタートを切っていません。

0 投票する
1 に答える
17647 参照

normalization - TF-IDF 結果の正規化

この特定のコードから取得した tfidf の結果を正規化したいと思います。

このコードの出力は次のとおりです。

どんな助けでも大歓迎です。ありがとうございました

0 投票する
1 に答える
1705 参照

normalization - 正規化された TF-IDF で K-means を実行する方法

ここでいくつかのガイダンスが必要です。プロジェクトの TF-IDF の結果を正規化しようとしています。ということで、TF-IDFの次は何を考えているのでしょうか?これらの正規化された TF-IDF に対して k-means クラスタリングを実行したかったのですが、もうその時でしょうか? この前に、Lucene を使用してインデックスを作成しました。可能であれば、 Windows を使用しているため、 Mahout を使用したくありません (cygwin も使用したくない)。

これらの lucene-ed および tf-idf-ed の結果でk-means を実行する方法 (および方法) に関する提案はありますか? ここで迷って..

0 投票する
2 に答える
330 参照

nlp - Smalltalkおよびtf-idfアルゴリズム

自然言語処理のためのSmalltalkでのtf-idfアルゴリズムの簡単な実装または使用例を誰かが示すことができますか?NaturalSmalltalkというパッケージで実装を見つけましたが、それは私のニーズには複雑すぎるようです。Pythonでの簡単な実装は、次のようなものです。

Hapaxに別のtf-idfがあることに気づきましたが、それはソフトウェアシステムの語彙の分析に関連しているようで、その使用方法の例は見つかりませんでした。

0 投票する
1 に答える
1797 参照

python - nltkを使用したidfの実装

「速い茶色のキツネが怠惰な犬を飛び越えた」という文を与えられて、私は各単語がnltkコーパス(コーパスが最も一般的/包括的である方)からどれくらいの頻度であるかのスコアを取得したいと思います

編集:

この質問は、この質問に関連しています。@adi92がidfの手法を使用して単語の「希少性」を計算することを提案した文からのpythonnltkキーワードの抽出。これが実際にどのように見えるかを見たいと思います。ここでのより広い問題は、英語での単語の使用の希少性をどのように計算するかです。これを解決するのは難しい問題だと思いますが、それでもnltk idf(brownやreutersコーパスのようなものを使用)は私たちをそこへの道の一部にするかもしれませんか?

0 投票する
1 に答える
1148 参照

elasticsearch - 結果 (idf?) 全体で入れ子になったヒットの合計数をシングル ヒットの tf よりも高くするように ElasticSearch を取得しますか?

用語をいじっていたらすみませんが、私のアプリにとって意味のある方法で ES に結果を採点させるのに問題があります。

いくつかの単純なフィールドを使用して数千のユーザーのインデックスを作成しています。また、各ユーザーのインデックスにネストされている可能性のある数百の子オブジェクト (つまり、Book --> Pagesデータ モデル) を作成しています。インデックスに送信される JSON は次のようになります。

タグはタイプ「タグ」で、「キーワード」アナライザーを使用し、ブーストされた 10 です。タイトルはブーストされません。

「犬」を検索すると、最初のユーザーの方が 2 番目のユーザーよりもスコアが高くなります。これは、最初のユーザーの tf-idf が高いことに関係していると思います。ただし、私のアプリでは、理想的にはその用語のヒットを持つユーザーの投稿が多いほど、最初に来るでしょう。

投稿数で並べ替えてみましたが、ユーザーの投稿数が多いとジャンク結果になります。基本的には、ヒットした投稿が多いユーザーが上位になるように、ユニークな投稿ヒット数で並べ替えたいと考えています。

どうすればこれを行うことができますか。何か案は?

0 投票する
1 に答える
4450 参照

python - TF-IDF の簡単な使い方 - NLTK/Scikit Learn

さて、私は少し混乱しています。ただし、これは単純で直接的な質問です。

コーパス全体に対してドキュメントの TF-IDF マトリックスを計算すると、次のような結果が得られます。

この結果を使用して、検索クエリに対して最も類似したドキュメントを取得するにはどうすればよいですか? 基本的に、ウィキペディアの検索バーを再作成しようとしています。検索クエリに基づいて、Wikipedia から最も関連性の高い記事を返したいと考えています。このシナリオでは、6 つの記事 (行) があり、検索クエリには 3 つの単語 (列) が含まれています。

列のすべての結果を合計するか、それともすべての行を合計するか? 値が大きいほど関連性が高いですか、それとも値が小さいほど関連性が高いですか?

0 投票する
1 に答える
8627 参照

python - 検索クエリのTF*IDF

さて、私はTF * IDFに関するこれらの2つの投稿をフォローしていますが、少し混乱しています:http: //css.dzone.com/articles/machine-learning-text-feature

基本的に、複数のドキュメントの検索を含む検索クエリを作成したいと思います。scikit-learnツールキットとPython用のNLTKライブラリを使用したい

問題は、2つのTF*IDFベクトルがどこから来ているのかわからないことです。検索するには、1つの検索クエリと複数のドキュメントが必要です。各クエリに対する各ドキュメントのTF*IDFスコアを計算し、それらの間の余弦の類似性を見つけてから、スコアを降順で並べ替えてランク付けすることを考えました。ただし、コードは正しいベクトルを考え出していないようです。

クエリを1回の検索に減らすと、0の膨大なリストが返されますが、これは非常に奇妙なことです。

コードは次のとおりです。

0 投票する
2 に答える
5672 参照

machine-learning - 文書分類のためのIDF(逆文書頻度)の計算

ドキュメント分類でIDF(逆ドキュメント頻度)を計算することに疑問があります。トレーニング用の複数のドキュメントを含む複数のカテゴリがあります。次の式を使用して、ドキュメント内の各用語のIDFを計算しています。

私の質問は次のとおりです。

  1. 「コーパス内のドキュメントの総数」とはどういう意味ですか?ドキュメントが現在のカテゴリからカウントされるのか、利用可能なすべてのカテゴリからカウントされるのか。
  2. 「ドキュメント一致用語の数」とはどういう意味ですか?用語一致ドキュメントが現在のカテゴリからカウントされるのか、利用可能なすべてのカテゴリからカウントされるのか。
0 投票する
6 に答える
134891 参照

python - Python: tf-idf-cosine: ドキュメントの類似性を見つける

Part 1 & Part 2で利用できるチュートリアルに従っていました。残念ながら、著者には、コサイン類似度を使用して 2 つのドキュメント間の距離を実際に検出するという最後のセクションを行う時間がありませんでした。stackoverflowからの次のリンクの助けを借りて、記事の例に従いました。上記のリンクに記載されているコードが含まれています (生活を楽にするため)。

上記のコードの結果として、次のマトリックスがあります

コサイン類似度を計算するためにこの出力を使用する方法がわかりません。同様の長さの 2 つのベクトルに関してコサイン類似度を実装する方法は知っていますが、ここでは 2 つのベクトルを識別する方法がわかりません。