“morelikethis”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

1457 参照

search - Solr 検索、数値一致、関連性

ユースケースから始めましょう。価格が 500 ドルの製品を探しているとします。価格が多少高くても低くても、必ずしも気にする必要はありませんが、その価格帯の製品には全体的な関連性スコアを高くしてもらいたいと考えています。

Solrでこれを行う方法はありますか? このサイトで見た関連性/MoreLikeThis ドキュメントには、特定の数値からの逸脱という概念がないようです。

関連する質問。これら 2 つのクエリを実現するために、solr 検索の重み付けを変更できるようにしたいと考えています。

「似たような価格のカメラを探す」と「似たような機能のカメラを探す」

このハンドラーに似たものを見ると、関連性を計算するために使用されるアルゴリズムは、制御ノブをプログラマーに公開しているようには見えません。たとえば、同様の価格のカメラの場合、関連性スコアを変更して、同じ価格帯のアイテムの関連性を高めながら、機能の重み付けを維持したいと考えています。同様の機能については、これが逆になります。IE は「同様の機能を備えたカメラを見つけますが、1 台が 40,000 ドルかかる場合、選択した価格の同様のカメラよりも関連性が低くなります」(より多くの機能が必要ですが、レンズキャップにクロムスピナーが取り付けられているだけかもしれません)。

2010-01-20T05:43:31.320

0 投票する

3 に答える

1712 参照

c# - Lucene インデックスに保存されている同様のドキュメントが既に存在するかどうかを検出する方法

データベース内の重複を除外する必要があります。問題は、重複が完全一致ではなく類似文書と見なされることです。この目的のためにFuzzyQuery、次のように使用することにしました。

アイデアは、最小類似度を 0.8 に設定することでした (十分に高いと思います)。これにより、十分に類似していないドキュメントを除外して、類似したドキュメントのみが検出されます。

このコードをテストするために、既存のドキュメントが見つかるかどうかを確認することにしました。変数queryTextには、インデックスに格納されている値が割り当てられました。上記のコードは何も検出しませんでした。つまり、完全一致すら検出しませんでした。

インデックスは次のコードで作成されました:

以下の推奨事項に従いましたが、結果は次のとおりです。 TermQuery は結果を返しません。で構築されたクエリ

完全に一致するドキュメントと同様のコンテンツを持つ他のいくつかのドキュメントの最大スコアを持つ複数の結果を返します。

c#lucene lucene.net morelikethis

2010-02-09T17:02:59.487

0 投票する

2 に答える

500 参照

search - インデックスを常に更新するSolr

150,000 件のニュース記事を掲載するニュースサイトを運営しています。約 250 の新しい記事が、毎日 5 ～ 15 分間隔でデータベースに追加されます。Solr は何百万ものレコードに最適化されており、私の 150K は問題にならないことを理解しています。しかし、更新のたびにキャッシュが無効になるため、頻繁な更新が問題になるのではないかと心配しています。私の開発サーバーでは、ページのコールドロードのロードに 5 ～ 7 秒かかります (すべてのページでいくつかの MLT クエリが実行されるため)。

インデックスをアーカイブインデックスと最新インデックスの 2 つに分割すると役に立ちますか。アーカイブインデックスは 1 日 1 回更新されます。

常に更新されるインデックスのためにインストールを最適化する方法を誰か提案できますか?

ありがとう

search solr full-text-search morelikethis

2010-07-10T16:29:23.737

0 投票する

2 に答える

419 参照

zend-framework - ゼンド・ルセン

検索エンジンに Zend_Search_Lucene を使用しています。悲しいことに、インデックス内の同様のドキュメントを見つけることができる MorelikeThis メソッドの実装がありません。

この関数の適切な Zend ポートに出くわした人はいますか?

drupal モジュールを見つけましたが、深刻なハッキングなしに Zend で使用できるかどうかはわかりません。

zend-framework search lucene morelikethis

2010-08-11T09:16:09.213

0 投票する

1 に答える

122 参照

search - 完全なドキュメントを検索するようにluceneに指示するにはどうすればよいですか？

luceneを実行していて、Solrを介してクエリを実行しています。インデックスが作成され、多くの単語を含むドキュメントがあります。次に、提供するドキュメントのインデックスを検索する必要があることをluceneに伝える方法を教えてください。クエリの構文はどうなりますか？

search solr lucene morelikethis

user349026

2010-08-29T08:34:49.113

0 投票する

1 に答える

630 参照

solr - 追加する前に同様のドキュメントを検索する

ユーザーは、日付、時刻、タイトル、および説明をマルチフィールドフォーム（ドキュメント）に入力します。
ドキュメントを保存する前に、同様のドキュメントがSolrに保存されているかどうかを確認します
ユーザーは、このドキュメントを保存するかどうかを選択できます。

Solrに「類似したドキュメントを見つける」を実装する方法は？

Luceneで：FuzzyLikeThisQuery、MoreLikeThis？

しかし、Solrでは？

PS私はdjango-hastackを使用しています

solr lucene full-text-search django-haystack morelikethis

2010-09-10T09:51:13.280

0 投票する

2 に答える

1464 参照

solr - SOLR MoreLikeThisでモデルと一致に異なるフィールドを使用することは可能ですか？

AとBの2つのフィールドを持つドキュメントがあるとします。

SOLRのMoreLikeThisを使用したいのですが、ひねりを加えて、AフィールドがモデルドキュメントのBフィールドに似ているドキュメントをブーストすることに最も興味があります。（つまり、モデルBフィールドからMLTの「興味深い用語」を抽出しますが、Aフィールドに基づいてMLT結果のみを収集します。）

mlt.flフィールドまたはmlt.qfブーストを使用して、単一のクエリでこの効果を実現する方法がわかりません。（mlt.flは、「興味深い用語」の検出とそれらの用語への一致の両方に使用されるフィールドを指定しているようです。）いくつかのオプションがありませんか？

または、「興味深い用語」を自分で抽出して、「field：term」の詳細を交換する必要がありますか？

（これと同じように他のアイデアも高く評価されています。）

solr lucene morelikethis

2010-10-22T06:27:20.947

0 投票する

1 に答える

1462 参照