問題タブ [lucene]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
2072 参照

search - Lucene.Net は、頻繁に変更されるコンテンツの検索エンジンとして適していますか?

Lucene.Net は、頻繁に変更されるコンテンツの検索エンジンとして適していますか?

より具体的に言えば、lucene.net インデックスの更新速度について主観的な意見を言える人はいますか? 頻繁に変化するコンテンツを検索するための他のアプローチは素晴らしいでしょう。

私たちはフォーラムを開発しています。フォーラムの投稿は、フォーラム リポジトリに頻繁に追加されます。検索できるようにするには、これらの投稿を lucene インデックスにすばやく (0.5 秒未満で) 追加する必要があると考えています。最初のリポジトリには約 5E6 の投稿があります。非エキゾチックなサーバーで実行されている検索エンジンを想定します (これは非常に漠然としています!)。

頻繁に変更されるコンテンツの検索の問題に対処することに関するその他の提案を歓迎します。フォーラムの投稿は、可変数の名前付きタグで検索可能である必要があります (タグ名と値が一致する必要があります)。SQL ベースのアプローチ (Toxi スキーマに基づく) では、必要なパフォーマンスが得られません。

0 投票する
7 に答える
6672 参照

lucene - LuceneまたはSolrで使用するスパイダリングツールの推奨事項は?

HTMLおよびXMLドキュメント(ローカルまたはWebベース)に対して使用するのに適したクローラー(スパイダー)とは何ですか?Lucene / Solrソリューションスペースでうまく機能しますか?Javaベースである可能性がありますが、そうである必要はありません。

0 投票する
2 に答える
3331 参照

lucene - Lucene QueryParser

Lucene QueryParser.parse(string) はまだ機能しますか? 非推奨の場合、新しい構文は何ですか?

クエリ query = QueryParser.parse("オフィーリア");

ありがとうタチアナ

0 投票する
1 に答える
5027 参照

.net - Lucene.NET で数値をインデックス化して検索する方法は?

Lucene.NET (バージョン 2.0)を使用して Web サイトの全文検索を実装しました。索引付けと検索はうまく機能しますが、1 つ問題があります。番号(電話番号、製品番号など)を検索語として検索すると、結果のドキュメントが得られません。

Lucene.Net.Analysis.SimpleAnalyzer クラスを使用しています。Analyzer や Tokenizer を変更する必要があると思います。

何かアドバイス?

ありがとうございました!

0 投票する
4 に答える
2644 参照

lucene - リレーショナル DB から Lucene インデックスを構築するための一連のベスト プラクティスはありますか?

LuceneSolrを使用して、RDBMS を利用した Web アプリケーションで検索を提供することを検討しています。私にとって残念なことに、私がざっと調べたすべてのドキュメントは、インデックスからデータを取得する方法を扱っています。私は、有用なインデックスを構築する方法に関心があります。これを行うための「ベストプラクティス」はありますか?

0 投票する
2 に答える
4167 参照

lucene - Lucene.net での日付範囲の使用

Lucene.net がテキストのインデックス作成にどのように機能するかを理解しています。特定の日付範囲に基づいてドキュメントを効率的に検索できますか? それとも、Lucene.net はテキスト マッチングを使用して日付を一致させるのでしょうか?

0 投票する
2 に答える
1747 参照

database - 比較: DB 全文検索と検索エンジン (Lucene)

stackoveflow.com の観点から (スケーリングを目的とした Web サイト プロジェクトを構築する 2 ~ 3 人のエンジニアのチーム)、開発プロセスの早い段階で、データベース ベースではなく Lucene/Autonomy に基づく検索を構築するために労力を費やすことは理にかなっていますか?全文検索。

長所/短所:
Nutch や Autonomy などの成熟した Lucene 実装では、後の段階で Lucene に移行するコスト (これは避けられません) はごくわずかです。
大量の場合、増加する検索インデックスを維持するために追加のインデックス サーバーを追加すること (たとえば、nutch) は比較的簡単です。
Lucene の実装では、ほとんどの場合、インメモリ インデックスを管理するために追加のサーバーが必要になります (スケーリング プロセスのかなり早い段階で)。

0 投票する
3 に答える
713 参照

mysql - 効率的なフィルタリング/検索

コンテンツのページを管理するホストされたアプリケーションがあります。各ページには、多数のカスタマイズされたフィールドといくつかの標準フィールド (タイムスタンプ、ユーザー名、ユーザーの電子メールなど) を含めることができます。

何百もの異なるサイトがシステムを使用している可能性があるため、フィルタリング/検索を処理する効率的な方法は何ですか? 絞り込みたいグリッド ビューを想像してください。特定のフィールド (ユーザー ID、日付) でフィルタリングするか、全文検索を入力できます。

たとえば、「ユーザー ID 10 で開始されたすべてのページ」は、MySQL データベースに対する非常に迅速なクエリです。しかし、「userid が 10 で [一部の検索クエリ] に一致するユーザーによって開始されたすべてのページ」のようなものは、データベースに悪影響を与えるため、Lucene のような検索エンジンに適しています。

基本的に、他の大規模サイトがこの種のことをどのように行っているのか疑問に思っています. すべての種類のフィルタリングに検索エンジンを 100% 利用していますか? データベースクエリと検索エンジンを混在させていますか?

検索エンジンのみを使用すると、新しい/更新されたオブジェクトが検索インデックスに表示されるまでにかかる遅延時間に問題があります。つまり、インデックスをすぐに更新するのは賢明ではなく、代わりにバッチで行うのは賢明ではないことを読みました。これが 5 分ごとを意味する場合でも、単純なページ リスト (「カテゴリ:5」の検索クエリなど) を表示したときに、最近追加されたページがすぐに表示されないと、ユーザーは混乱します。

私たちは MySQL を使用しており、検索用に Lucene を詳しく調べています。私が知らない他の技術はありますか?

私の考えは、MySQL を使用して基本的なフィールドをフィルタリングする単純なフィルタリング ページを提供することです。次に、Google と同様の結果を表示する別の全文検索ページを提供します。これが唯一の方法ですか?

0 投票する
4 に答える
1780 参照

lucene - Lucene.Net と Geosearch - どこかにありませんか?

Lucene とジオサーチに関する興味深い記事を見つけました。

http://sujitpal.blogspot.com/2008/02/spatial-search-with-lucene.html

私が見つけることができなかった同等の .NET 実装がありますか、または彼の例の Java コードを .NET Framework に適合させるために作り直す必要がありますか?

0 投票する
1 に答える
3243 参照

php - ZendLuceneを使用したPDFファイルの検索

Zend_Search_Luceneを使用してPDFドキュメントを検索/インデックス作成する方法はありますか?