問題タブ [tf-idf]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
text - テスト時に IDF (TF-IDF のように) を計算しますか?
私が理解しているように、IDF は、その用語が含まれるドキュメントの数を計算するために使用されます (単なるアイデアのようなものです)。事前にすべてのドキュメントがあるため、トレーニング セットで IDF (TF と共に) を計算できます。しかし、事前にテスト セットを用意しておらず、(Web クローラーなどから) テスト ドキュメントを順次取得している場合、テストの際にドキュメント内の単語の IDF をどのように計算すればよいでしょうか。 ?
java - LuceneとJavaを使用してtf-idfとの余弦類似度を計算する方法
クエリと一連のドキュメントがあります。tf-idfとのコサイン類似性に基づいてこれらのドキュメントをランク付けする必要があります。誰かがこれを計算するためにLuceneからどのようなサポートを得ることができるか教えてもらえますか?Luceneから直接計算できるパラメーター(luceneのメソッドを介してtf、idfを直接取得できますか?)およびLuceneとの余弦類似度の計算方法(クエリの2つのベクトルを渡した場合に余弦類似度を直接返す関数はありますか?ドキュメント?)
よろしくお願いします
java - Java - tf*idf の実装?
私は基本的に検索エンジンを作成しており、検索クエリに基づいて xml ドキュメントをランク付けするために tf*idf を実装したいと考えています。どうすれば実装できますか? どうすれば開始できますか?どんな助けでも感謝します。
correlation - tf-idf 値に基づいて相関を計算しますか?
tf-idf 行列に基づいてピアソン相関係数を計算して、どの用語が他の用語と組み合わせて発生するかを確認することは理にかなっていますか? 数学的に正しいですか?
私の出力は、各項の各セルに相関係数を持つ相関行列です。
- -------term1 term2 term3
- ターム2
- ターム2
- ターム2
java - java-ドキュメントのtf*idfスコアでコサイン類似性を実装する方法は?
キーワードを検索している一連のドキュメントがあります。キーワードとすべてのドキュメントのtf-idf値を計算しました。すべてのドキュメントの配列にtf-idf値を格納していると仮定します。これを使用して、余弦の類似度を計算するにはどうすればよいですか?コードに関するあらゆる種類のヘルプに感謝します!
nlp - NLP - ファジー文字列マッチングの実行時間とリコールの改善
動作するアルゴリズムを作成しましたが、実行時間は非常にひどいものです。はい、私はそれが恐ろしいことになることを最初から知っていますが、それほどではありません. わずか 200000 レコードの場合、プログラムは 1 時間以上実行されます。
基本的に私がやっていることは次のとおりです。
はい、このコードは非常にループに適しています。リコールが非常に重要であるため、私は総当たりを使用しています。だから、何百万ものデータの200000データに対して実行しているだけでなく、クライアントのコンピューターがハイエンドではないため、どうすれば高速化できるのでしょうか。このプログラムをテストするコンピューターは、4 GB の RAM を搭載したデュアル コアです)。TF/IDF に出会いましたが、それで十分かどうかはわかりません。どうすればグーグルはリアルタイムで検索できるのだろうか。
前もって感謝します!
編集:このプログラムはデータフィルターです。200,000 個のダミー データ (実際のデータは約 12M です) から、サンプルに関係のないデータをフィルタリングする必要があります (500 個のダミー サンプル、実際のサンプルの量はまだわかりません)。
与えられたダミーデータとサンプルでは、実行時間は約 1 時間ですが、あちこちいじくり回した後、10 ~ 15 分に短縮することに成功しました。同じ文字で始まるフィールドとサンプルをグループ化し (the、a、an などの特別で意味のない単語を割り引いて)、同じ最初の文字でフィールドをサンプルに一致させることで、それを軽減しました。そこに問題があることはわかっています。フィールドの最初の文字のスペルが間違っていた場合はどうなりますか? しかし、その数はごくわずかだと思います。サンプルは常に維持されているため、正しいスペルになっています。
python - 非ブール検索クエリのシューッという音
私は質問応答システムを構築していますが、プロセスを高速化するために、IR システムがその質問に対する回答を保持している可能性が高いコーパスから一連のドキュメントを返すようにしたいと考えています (そして、私の NLP アルゴリズムは、それらの全文)。
私は Python を使用しているので、Whoosh は良い選択のように思えましたが、純粋なブールクエリ以外の方法で検索するのは困難であり、質問への回答には向いていません。文字列クエリと TF-IDF の類似性が高いドキュメントのリストのようなものが欲しいです。
入力したいのは:
「アメリカ合衆国の大統領は誰?」
最も類似したドキュメントを取得しますが、代わりにストップワードを取り除いて次のようにします。
「大統領 OR ユナイテッド OR 州」
正確さは QA プロセスには向いていません。ブール値以外の方法で上位のドキュメントを取得するためのメソッドまたは高度な API メソッドを教えてもらえますか? 他のライブラリも試してみたいと思っていますが、ほとんどのライブラリは Python とすばやくやり取りするには複雑に思えます。自然言語コンポーネントに集中できるように、非常に簡単なものが欲しいと思っていました。
dataset - TF-IDF とベクトル モデルのデータセットのヘルプ
TF-IDF、ベクトル モデル、および TF-IDF アルゴリズムのいくつかの最適化を比較したいと思います。そのためには、データセット (少なくとも 100 個の英語テキストのドキュメント) が必要です。私はそれを見つけることができません。助言がありますか ?
data-mining - 用語頻度に対するステミングの影響?
ストップワードの削除とステミングによって、用語頻度(TF)と逆文書頻度(IDF)はどのように影響を受けますか?
ありがとう!
pagerank - 利点ページランクはTF-IDFよりも優れています
PageRankとTermFrequency-InverseDocumentFrequencyの比較に関する学術論文を誰かに教えてもらえますか?私はあちこちを検索していて、2つを組み合わせる方法についての論文を見つけました。
TF-IDFに対するページランクの利点を見つける必要があります