“tf-idf”の関連問題_Stack Overflow日本語サイト

0 投票する

0 に答える

133 参照

xml - DOM ツリーで兄弟のコンテンツをトークン化する

後順の方法で dom ツリーをトラバースする計画があります。次に、兄弟グループごとに、各深さの兄弟をトラバースするときに、テキストコンテンツ内の要素の数を取得したいと考えています。明確にするために、例を見てみましょう。

たとえば、データ 1 とデータ 2 をまとめて、データ 3 ～ 5 をまとめて文字数を調べたいとします。これは、ツリーをトラバースしてTFIDF値を計算するためにこれまでに書いたコードですが、前述のように、兄弟のグループごとにTFを個別に見つけたいのですが、手がかりはありますか? 前もって感謝します

ps:手動で、何らかの理由で計算内のドキュメントの数が4であると想定しました。

2011-11-20T08:23:28.083

0 投票する

2 に答える

5259 参照

mysql - MySQL で文字列をトークン化するにはどうすればよいですか?

私のプロジェクトでは、チームによって手動で作成されたフラットな Excel ファイルから 50 万行以上のデータのかなりのコレクションをインポートしています。ここでの問題は、クライアント検索のために、すべてを正規化する必要があることです。たとえば、会社フィールドには複数の会社のスペルがあり、「IBM」の次に「IBM Inc.」などの支店が含まれます。また、「A46-Rhizonme Pentahol」など、SOUNDEXだけでは扱えない英数字の商品名もあります。

AJAX auto-suggestを使用して、すべてのデータ入力を Web フォームから行うことで、長期的に問題を解決できます。ただし、それまでは、既存のデータの膨大なコレクションに対処する必要があります。これは、私がここで読んだことに基づいて、良いプロセスであると私が信じるものに私を導きます:

http://msdn.microsoft.com/en-us/magazine/cc163731.aspx

カスタムのファジーロジックルックアップとファジーロジックのグループ化を作成する手順

リスト項目
文字列をキーワードにトークン化する
キーワード TF-IDF の計算 (合計頻度 - 逆ドキュメント頻度)
キーワード間のレーベンシュタイン距離を計算する
利用可能なアルファ文字列でSoundexを計算する
キーワードのコンテキストを決定する
コンテキストに基づいて、「会社」、「製品」、「成分」などの個別の DB テーブルにキーワードを配置します。

私はグーグルで、StackOverflow を検索し、MySQL.com のディスカッションなどを読んで、この問題について事前に構築されたソリューションを見つけようとしました。何か案は？

mysql normalization levenshtein-distance soundex tf-idf

2011-12-15T21:21:23.577

0 投票する

0 に答える

1254 参照

dataset - ドキュメントのリストを TF-IDF ベクトルに変換するには?

多くのフォルダーに保存されているドキュメントのリストからDocument x Wordマトリックスを作成したいと思います。マトリックス内の特定のエントリxは、 word_jがdocument_i内でx回出現することを示します。考慮すべき単語のリストは、Vocabulary.txt ファイルに記載されています。ドキュメントを 1 つずつスキャンし、ストップワードを削除してドキュメントベクトルを構築する既存のパッケージはありますか?

dataset tf-idf

2012-01-20T08:48:54.897

0 投票する

2 に答える

399 参照

java - 文章の遷移確率行列計算

ドキュメントから抽出された文字列として保存されている文章があります。文に標準コサイン類似度を適用したい。どうすればそれを行うことができますか？

java similarity trigonometry tf-idf

2012-02-06T10:50:42.443

0 投票する

2 に答える

5850 参照

python - TF-IDF は Python の gensim ツールにどのように実装されていますか?

ネットから見つけたドキュメントから、コーパス内の用語の用語頻度と逆ドキュメント頻度の重みを決定するために使用される式を見つけました。

tf-idf(wt)= tf * log(|N|/d);

gensim で言及されている tf-idf の実装を行っていました。ドキュメントに記載されている例は

これは明らかに Tf-IDF の標準実装に従っていません。両モデルの違いは何ですか？

注: 0.70710678 は、固有値計算で通常使用される値 2^(-1/2) です。では、固有値はどのようにして TF-IDF モデルに組み込まれるのでしょうか?

python tf-idf latent-semantic-indexing gensim

2012-02-27T18:48:16.783

0 投票する

1 に答える

1208 参照

python - Pythonでコサイン類似度を使用して、クエリドキュメントと比較して最も類似したドキュメントを返します

私は一連のファイルとクエリ doc を持っています。私の目的は、各ドキュメントのクエリ doc と比較して、最も類似したドキュメントを返すことです。最初にコサイン類似度を使用するには、ドキュメント文字列をベクトルにマップする必要があります。ドキュメントごとに計算する tf-idf 関数を作成しました。

文字列のインデックスを取得するには、そのような関数があります。

コサイン類似度の場合、私の機能は次のとおりです。

TF-IDFは;

私の問題は、インデックスと語彙リスト、およびこの関数内の tf-idf を使用して makevector を作成するにはどうすればよいかということです。どんな答えでも大歓迎です。

python vector vocabulary tf-idf cosine-similarity

2012-02-28T13:33:53.247

0 投票する

2 に答える

934 参照

lucene - Lucene / Mahout を使用して、事前定義されたドキュメントグループ内の定義用語を検索する

良いカテゴリと悪いカテゴリに分けられたドキュメントのセットがあります。新しいドキュメントがどのカテゴリに分類されるかを予測できるようにしたいと考えています。私が注目していることの 1 つは、各カテゴリを最もよく定義する用語を見つけて、新しいドキュメントでそれらの用語を探すことです。

少し前に、TF-IDF について学んだときに、Lucene 用語ベクトルを使用して Mahout クラスタリングをいじっていました。私が探しているのは、あるカテゴリから TermFrequency を見つけて、他のカテゴリでそれらの用語の InverseDocumentFrequency を適用するようなものだと思います。

これらのグループのいずれかでドキュメントを一意に定義し、他のグループでは定義しない用語を見つけるための最良のアプローチを知っている人はいますか?

lucene machine-learning classification mahout tf-idf

2012-03-08T20:38:19.960

0 投票する

3 に答える

2906 参照

java - MahoutTFIDF辞書ファイル

このガイドに従って、計算を行うためにmahoutを使用して（テキストファイルとして）一連のドキュメントに対してTFIDFを実行しようとしています。

辞書とベクトルの重みを正常に作成し、出力にアクセスしようとしています。ガイドには、「たとえば、生成された辞書ファイルのコンテンツを、トークンインデックスをキーとして、トークンを値としてマップに簡単にロードできる」と記載されています。

彼が提案しているように、このファイルをマップにロードする方法がわかりません。誰かがそれがどのように行われるか知っていますか？

テキストファイルのディレクトリからベクターを作成しました。「。/mahoutseq2sparse...」を実行しているときに発生した問題の1つは、アナライザーを制御するフラグでした。これはluceneのStandardAnalyzerである必要があります。このフラグを使用して実行しようとすると、ClassNotFoundExceptionが発生しましたが、フラグを削除すると問題が解決し、デフォルトのアナライザーもこれであると思います。したがって、出力は例と同じである必要があります。

この辞書を地図にロードする方法を誰かが知っているなら、私は永遠に感謝します！

ジェームズ

java lucene hadoop mahout tf-idf

2012-03-13T17:39:21.200

問題タブ [tf-idf]

Reference