問題タブ [vsm]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
text - ベクトルを負の値で正規化する
システムにある各テキストベースのアイテムをベクトル空間モデルのベクトルとして表現したいと考えています。用語の値は、正または負のクラスの用語の頻度を反映する負または正の値にすることができます。ゼロ値はニュートラルを意味します。たとえば、次のようになります。
アイテム1 (-1,0,-5,4.5,2)
項目 2 (2,6,0,-4,0.5)
私の質問は次のとおりです。
1- ベクトルを [0 から 1] の範囲に正規化するにはどうすればよいですか。
.5 は、正規化前のゼロを意味します
.5> 正の場合
.5< 負の場合
そのようなことを行う数式があるかどうか知りたいです。
2- 正規化後、類似度の選択は異なりますか?? たとえば、コサイン類似度を使用できますか?
3- 正規化後に次元削減を行うと難しいでしょうか??
前もって感謝します
c - ベクトル空間モデル クエリ - ドキュメント検索のセット
cでvsm検索のコードを書こうとしています。そのため、ドキュメントのコレクションを使用して、各スロットが df とともに単語を保持し、各スロットがドキュメントの名前を保持するリストへのポインターを保持するハッシュテーブル (逆インデックス) を構築しました (単語が少なくとも 1 回出現する) ) を tf (このドキュメントに何回登場したか) とともに。ユーザーは質問を書き(qqq.dddの重み付けと比較方法も選択しますが、それは私の質問には関係ありません)、それに関連するドキュメントを(最も関連性の高いものから最も関連性の低いものまで)印刷する必要があります。したがって、私が見た例は、たとえばドキュメントが 1 つしかないステップを示しています。1.000.000 ドキュメントのコレクションがあり (N=1.000.000)、比較したい
したがって、この例では、次のような配列を作成します。
この例では、各用語の df も示されているため、これらの手がかりと重み付けと比較の方法を使用すると、4 つの座標 (配列内の各単語に対して 1 つ) を見つけることでそれらをベクトルに変換して簡単に比較できます。したがって、この例では 1.000.000 のドキュメントがあり、クエリとドキュメントの関連性を確認するために、クエリとドキュメントに含まれる単語をそれぞれ 1 回 (4 単語) 使用します。したがって、4 つの座標を見つけて比較する必要があります。私がやろうとしているのは、それぞれが 3 から 50 の単語を持つ 8000 ほどのドキュメントです。では、クエリと各ドキュメントの関連性を比較するにはどうすればよいでしょうか? 私が持っている場合
query-document1 を比較するには、次の単語を使用します: this is ping kong pong (つまり 5 座標) および query-document2 を比較するには、次の単語を使用します:同じ比較方法で最もスコアが高いものが最も関連性が高いですか? または、両方の単語を使用する必要がありますか: これはピンコン アム タン コン (7 座標) ですか? だから私の質問は、これらすべての 8000 のドキュメントを質問と比較する正しい方法はどれですか? 私の質問を理解しやすくすることに成功することを願っています。お時間をいただきありがとうございます!
c# - TabItem の WPF、TabControl、選択およびホバー状態
MVVM WPF アプリケーションに TabControl があります。この msdnトピックに基づいて、TabItem と TabControl のテンプレートを作成しました。私はいくつかの変更を行い、tabItems の選択とホバー状態をサポートするために VisualStatManagers 状態をいくつか追加しました。
これが私のItemControlテンプレートです
そして私のTabControlテンプレート
私の問題は、プロジェクトでのテンプレートの奇妙な動作です。xaml デザイナーの VS2012 では、TabControl は正常に見えます。しかし、コンパイルされたアプリケーションでは完全に反対です。選択状態が正しく機能しません。実際には、通常の vsm 状態のみが表示されます。TabItems のコンテンツを切り替えることはできますが、タブ ストリップの選択とホバー (マウスオーバー) の状態が背景と境界線の色を変更しません。私が言ったように、 VisualStateManager の通常の状態のみが実行されたアプリで機能しています。wpf vsm をデバッグできないので、その問題の原因がわかりません。VisualSateManager の問題だと思います。テストでは、以下に投稿された単純なタブコントロールを備えた単一のウィンドウを使用しました
私のアプリの問題の原因がわかっている場合、または wpf のコントロールで同様の状況に遭遇したことがある場合は、助けてください。
java - ルセン BM25 スコアリング
多数のドキュメントの類似性を計算するために Lucene を使用しようとしています。BM25 und VSM を使用した類似度計算 im。
GATE を使用する Lucene Im に加えて、言語処理タスクを実行するオープンソース フレームワーク。
ドキュメント (15) 間の類似度を計算しようとすると、奇妙な動作に遭遇しました。
VSM を使用すると、結果は次のようになります。
BM25 を使用すると、奇妙な動作が発生します。
BM25 は、「良い」または高い結果のためにすべてをリンクします。説明は次のようになります。
デバッグ上の理由から、実際の結果を確認するために用語ブーストやその他のものを無効にしました。通常、すべての値は、1 より大きいか 0 より小さい場合、1 または 0 に正規化されます。
Lucene 5.0.0 を使用しています。ドキュメントは、他のチケットへの参照を持つ通常のチケットです。
類似点は次のように実装されます。
こんなにスコアが違うなんて。私が見ることができるように、VSM が競合するものはすべて小さいです。
この奇妙な動作に遭遇した人はいますか?
どんな種類の助けにも感謝します!
- 編集
また、BM25 の各クエリで queryNorm が 1.0 に等しいことも疑問に思っています。ただし、VSM ではクエリごとに異なります。
これによると: Lucene スコアリング: queryNorm はどのようなコンテキストで使用されますか?
queryNorm(q) は、クエリ間のスコアを比較可能にするために使用される正規化係数です。この係数はドキュメントのランキングには影響しません (ランク付けされたすべてのドキュメントに同じ係数が掛けられるため)。むしろ、異なるクエリ (または異なるインデックス) からのスコアを比較できるようにしようとするだけです。
いつも同じはずですよね?
python-2.7 - Pythonのドキュメントから特定の単語の頻度を見つけるにはどうすればよいですか?
テキストファイルから特定の単語の頻度を知りたいです。私のドキュメントに「this is me is is」という行があるとします。入力が「is」の場合、出力は 3 で、入力が「me」の場合、出力は 1 です。このコードを試しています
しかし、それは望ましい出力を与えていません