“tf-idf”の関連問題_Stack Overflow日本語サイト

0 投票する

2 に答える

2853 参照

text - テスト時に IDF (TF-IDF のように) を計算しますか?

私が理解しているように、IDF は、その用語が含まれるドキュメントの数を計算するために使用されます (単なるアイデアのようなものです)。事前にすべてのドキュメントがあるため、トレーニングセットで IDF (TF と共に) を計算できます。しかし、事前にテストセットを用意しておらず、(Web クローラーなどから) テストドキュメントを順次取得している場合、テストの際にドキュメント内の単語の IDF をどのように計算すればよいでしょうか。 ?

2012-04-11T14:39:05.383

0 投票する

1 に答える

5307 参照

java - LuceneとJavaを使用してtf-idfとの余弦類似度を計算する方法

クエリと一連のドキュメントがあります。tf-idfとのコサイン類似性に基づいてこれらのドキュメントをランク付けする必要があります。誰かがこれを計算するためにLuceneからどのようなサポートを得ることができるか教えてもらえますか？Luceneから直接計算できるパラメーター（luceneのメソッドを介してtf、idfを直接取得できますか？）およびLuceneとの余弦類似度の計算方法（クエリの2つのベクトルを渡した場合に余弦類似度を直接返す関数はありますか？ドキュメント？）

よろしくお願いします

java lucene tf-idf cosine-similarity

2012-04-16T11:26:18.800

0 投票する

4 に答える

13301 参照

java - Java - tf*idf の実装?

私は基本的に検索エンジンを作成しており、検索クエリに基づいて xml ドキュメントをランク付けするために tf*idf を実装したいと考えています。どうすれば実装できますか? どうすれば開始できますか？どんな助けでも感謝します。

java relevance tf-idf

2012-04-18T13:52:51.177

0 投票する

1 に答える

2977 参照

correlation - tf-idf 値に基づいて相関を計算しますか?

tf-idf 行列に基づいてピアソン相関係数を計算して、どの用語が他の用語と組み合わせて発生するかを確認することは理にかなっていますか? 数学的に正しいですか？

私の出力は、各項の各セルに相関係数を持つ相関行列です。

-------term1 term2 term3
ターム2
ターム2
ターム2

correlation tf-idf pearson

2012-04-18T15:27:49.520

0 投票する

1 に答える

2623 参照

java - java-ドキュメントのtf*idfスコアでコサイン類似性を実装する方法は？

キーワードを検索している一連のドキュメントがあります。キーワードとすべてのドキュメントのtf-idf値を計算しました。すべてのドキュメントの配列にtf-idf値を格納していると仮定します。これを使用して、余弦の類似度を計算するにはどうすればよいですか？コードに関するあらゆる種類のヘルプに感謝します！

java similarity trigonometry tf-idf

2012-04-23T11:09:50.583

0 投票する

1 に答える

371 参照

nlp - NLP - ファジー文字列マッチングの実行時間とリコールの改善

動作するアルゴリズムを作成しましたが、実行時間は非常にひどいものです。はい、私はそれが恐ろしいことになることを最初から知っていますが、それほどではありません. わずか 200000 レコードの場合、プログラムは 1 時間以上実行されます。

基本的に私がやっていることは次のとおりです。

はい、このコードは非常にループに適しています。リコールが非常に重要であるため、私は総当たりを使用しています。だから、何百万ものデータの200000データに対して実行しているだけでなく、クライアントのコンピューターがハイエンドではないため、どうすれば高速化できるのでしょうか。このプログラムをテストするコンピューターは、4 GB の RAM を搭載したデュアルコアです)。TF/IDF に出会いましたが、それで十分かどうかはわかりません。どうすればグーグルはリアルタイムで検索できるのだろうか。

前もって感謝します！

編集：このプログラムはデータフィルターです。200,000 個のダミーデータ (実際のデータは約 12M です) から、サンプルに関係のないデータをフィルタリングする必要があります (500 個のダミーサンプル、実際のサンプルの量はまだわかりません)。

与えられたダミーデータとサンプルでは、実行時間は約 1 時間ですが、あちこちいじくり回した後、10 ～ 15 分に短縮することに成功しました。同じ文字で始まるフィールドとサンプルをグループ化し (the、a、an などの特別で意味のない単語を割り引いて)、同じ最初の文字でフィールドをサンプルに一致させることで、それを軽減しました。そこに問題があることはわかっています。フィールドの最初の文字のスペルが間違っていた場合はどうなりますか? しかし、その数はごくわずかだと思います。サンプルは常に維持されているため、正しいスペルになっています。

nlp fuzzy-search tf-idf jaro-winkler

2012-04-24T01:33:28.577

0 投票する

0 に答える

308 参照

python - 非ブール検索クエリのシューッという音

私は質問応答システムを構築していますが、プロセスを高速化するために、IR システムがその質問に対する回答を保持している可能性が高いコーパスから一連のドキュメントを返すようにしたいと考えています (そして、私の NLP アルゴリズムは、それらの全文）。

私は Python を使用しているので、Whoosh は良い選択のように思えましたが、純粋なブールクエリ以外の方法で検索するのは困難であり、質問への回答には向いていません。文字列クエリと TF-IDF の類似性が高いドキュメントのリストのようなものが欲しいです。

入力したいのは：

「アメリカ合衆国の大統領は誰？」

最も類似したドキュメントを取得しますが、代わりにストップワードを取り除いて次のようにします。

「大統領 OR ユナイテッド OR 州」

正確さは QA プロセスには向いていません。ブール値以外の方法で上位のドキュメントを取得するためのメソッドまたは高度な API メソッドを教えてもらえますか? 他のライブラリも試してみたいと思っていますが、ほとんどのライブラリは Python とすばやくやり取りするには複雑に思えます。自然言語コンポーネントに集中できるように、非常に簡単なものが欲しいと思っていました。

python search information-retrieval whoosh tf-idf

2012-04-24T20:19:20.267

0 投票する

1 に答える

224 参照

dataset - TF-IDF とベクトルモデルのデータセットのヘルプ

TF-IDF、ベクトルモデル、および TF-IDF アルゴリズムのいくつかの最適化を比較したいと思います。そのためには、データセット (少なくとも 100 個の英語テキストのドキュメント) が必要です。私はそれを見つけることができません。助言がありますか？

dataset corpus tf-idf cosine-similarity

2012-04-30T07:06:33.490

0 投票する

1 に答える

8092 参照

data-mining - 用語頻度に対するステミングの影響？

ストップワードの削除とステミングによって、用語頻度（TF）と逆文書頻度（IDF）はどのように影響を受けますか？

ありがとう！

data-mining text-processing tf-idf stop-words stemming

2012-05-05T17:29:34.997

0 投票する

1 に答える

1922 参照

pagerank - 利点ページランクはTF-IDFよりも優れています

PageRankとTermFrequency-InverseDocumentFrequencyの比較に関する学術論文を誰かに教えてもらえますか？私はあちこちを検索していて、2つを組み合わせる方法についての論文を見つけました。

TF-IDFに対するページランクの利点を見つける必要があります

pagerank tf-idf

2012-05-21T21:17:48.073

問題タブ [tf-idf]

Reference