問題タブ [tf-idf]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
xml - DOM ツリーで兄弟のコンテンツをトークン化する
後順の方法で dom ツリーをトラバースする計画があります。次に、兄弟グループごとに、各深さの兄弟をトラバースするときに、テキスト コンテンツ内の要素の数を取得したいと考えています。明確にするために、例を見てみましょう。
たとえば、データ 1 とデータ 2 をまとめて、データ 3 ~ 5 をまとめて文字数を調べたいとします。これは、ツリーをトラバースしてTFIDF値を計算するためにこれまでに書いたコードですが、前述のように、兄弟のグループごとにTFを個別に見つけたいのですが、手がかりはありますか? 前もって感謝します
ps:手動で、何らかの理由で計算内のドキュメントの数が4であると想定しました。
mysql - MySQL で文字列をトークン化するにはどうすればよいですか?
私のプロジェクトでは、チームによって手動で作成されたフラットな Excel ファイルから 50 万行以上のデータのかなりのコレクションをインポートしています。ここでの問題は、クライアント検索のために、すべてを正規化する必要があることです。たとえば、会社フィールドには複数の会社のスペルがあり、「IBM」の次に「IBM Inc.」などの支店が含まれます。また、「A46-Rhizonme Pentahol」など、SOUNDEXだけでは扱えない英数字の商品名もあります。
AJAX auto-suggestを使用して、すべてのデータ入力を Web フォームから行うことで、長期的に問題を解決できます。ただし、それまでは、既存のデータの膨大なコレクションに対処する必要があります。これは、私がここで読んだことに基づいて、良いプロセスであると私が信じるものに私を導きます:
http://msdn.microsoft.com/en-us/magazine/cc163731.aspx
カスタムのファジー ロジック ルックアップとファジー ロジックのグループ化を作成する手順
- リスト項目
- 文字列をキーワードにトークン化する
- キーワード TF-IDF の計算 (合計頻度 - 逆ドキュメント頻度)
- キーワード間のレーベンシュタイン距離を計算する
- 利用可能なアルファ文字列でSoundexを計算する
- キーワードのコンテキストを決定する
- コンテキストに基づいて、「会社」、「製品」、「成分」などの個別の DB テーブルにキーワードを配置します。
私はグーグルで、StackOverflow を検索し、MySQL.com のディスカッションなどを読んで、この問題について事前に構築されたソリューションを見つけようとしました。何か案は?
dataset - ドキュメントのリストを TF-IDF ベクトルに変換するには?
多くのフォルダーに保存されているドキュメントのリストからDocument x Wordマトリックスを作成したいと思います。マトリックス内の特定のエントリxは、 word_jがdocument_i内でx回出現することを示します。考慮すべき単語のリストは、Vocabulary.txt ファイルに記載されています。
ドキュメントを 1 つずつスキャンし、ストップ ワードを削除してドキュメント ベクトルを構築する既存のパッケージはありますか?
java - 文章の遷移確率行列計算
ドキュメントから抽出された文字列として保存されている文章があります。文に標準コサイン類似度を適用したい。どうすればそれを行うことができますか?
python - TF-IDF は Python の gensim ツールにどのように実装されていますか?
ネットから見つけたドキュメントから、コーパス内の用語の用語頻度と逆ドキュメント頻度の重みを決定するために使用される式を見つけました。
tf-idf(wt)= tf * log(|N|/d);
gensim で言及されている tf-idf の実装を行っていました。ドキュメントに記載されている例は
これは明らかに Tf-IDF の標準実装に従っていません。両モデルの違いは何ですか?
注: 0.70710678 は、固有値計算で通常使用される値 2^(-1/2) です。では、固有値はどのようにして TF-IDF モデルに組み込まれるのでしょうか?
python - Pythonでコサイン類似度を使用して、クエリドキュメントと比較して最も類似したドキュメントを返します
私は一連のファイルとクエリ doc を持っています。私の目的は、各ドキュメントのクエリ doc と比較して、最も類似したドキュメントを返すことです。最初にコサイン類似度を使用するには、ドキュメント文字列をベクトルにマップする必要があります。ドキュメントごとに計算する tf-idf 関数を作成しました。
文字列のインデックスを取得するには、そのような関数があります。
コサイン類似度の場合、私の機能は次のとおりです。
TF-IDFは;
私の問題は、インデックスと語彙リスト、およびこの関数内の tf-idf を使用して makevector を作成するにはどうすればよいかということです。どんな答えでも大歓迎です。
lucene - Lucene / Mahout を使用して、事前定義されたドキュメント グループ内の定義用語を検索する
良いカテゴリと悪いカテゴリに分けられたドキュメントのセットがあります。新しいドキュメントがどのカテゴリに分類されるかを予測できるようにしたいと考えています。私が注目していることの 1 つは、各カテゴリを最もよく定義する用語を見つけて、新しいドキュメントでそれらの用語を探すことです。
少し前に、TF-IDF について学んだときに、Lucene 用語ベクトルを使用して Mahout クラスタリングをいじっていました。私が探しているのは、あるカテゴリから TermFrequency を見つけて、他のカテゴリでそれらの用語の InverseDocumentFrequency を適用するようなものだと思います。
これらのグループのいずれかでドキュメントを一意に定義し、他のグループでは定義しない用語を見つけるための最良のアプローチを知っている人はいますか?
java - MahoutTFIDF辞書ファイル
このガイドに従って、計算を行うためにmahoutを使用して(テキストファイルとして)一連のドキュメントに対してTFIDFを実行しようとしています。
辞書とベクトルの重みを正常に作成し、出力にアクセスしようとしています。ガイドには、「たとえば、生成された辞書ファイルのコンテンツを、トークンインデックスをキーとして、トークンを値としてマップに簡単にロードできる」と記載されています。
彼が提案しているように、このファイルをマップにロードする方法がわかりません。誰かがそれがどのように行われるか知っていますか?
テキストファイルのディレクトリからベクターを作成しました。「。/mahoutseq2sparse...」を実行しているときに発生した問題の1つは、アナライザーを制御するフラグでした。これはluceneのStandardAnalyzerである必要があります。このフラグを使用して実行しようとすると、ClassNotFoundExceptionが発生しましたが、フラグを削除すると問題が解決し、デフォルトのアナライザーもこれであると思います。したがって、出力は例と同じである必要があります。
この辞書を地図にロードする方法を誰かが知っているなら、私は永遠に感謝します!
ジェームズ