問題タブ [lucene]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
lucene - Lucene を使用するためのヒント/推奨事項
asp.net 3.5 を使用してジョブ ポータルに取り組んでいます。ジョブと履歴書の検索機能に Lucene を使用しました。Lucene のパフォーマンスの最適化、スケーラビリティなどに関するヒントや推奨事項があれば教えてください。
ありがとうございます!
lucene - 各カテゴリの検索ドキュメント数を表示する
検索結果の各カテゴリの合計ドキュメント数を表示する必要があります...例: ロック(1010) ブルース(5030) ポップ(2209) : :
TopFieldDocCollector を使用する方が HitCollector クラスよりも効率的であることをどこかで読んでいました。
私の要件を考えると、TopFieldDocCollector クラスをどのように使用すればよいですか?または Lucene に他のアプローチはありますか?
sql-server - ファイル (pdf、office など) の保存とインデックス作成に Sql Server をお勧めしますか?
重複の可能性:
Lucene.Net および SQL Server
PDF やオフィス ファイルなどのファイルを保存し、インデックスを作成する必要があります。現在、Sql Server 2k8 を使用して、IFilters による全文検索を使用してこのタスクを実行しています。私の質問は次のとおりです。これは「最良の」方法ですか?たとえば、インデックス作成のために Lucene に切り替える必要がありますか?
lucene - Lucene の最良の代替品はどれですか?
Unix 上で動作する可能性があり、電子メール検索 (Dovecot、Postfix、および maildir) に使用されます。
Lucene は問題ではありません。いくつかの代替案を分析しているだけです。
lucene - luceneにフィールド内のすべての用語を単一の用語として扱わせる
Luceneのドキュメントには、会社名がトークン化された「company」フィールドがあります。アプリケーションの特定の部分にトークン化が必要です。ただし、このクエリでは、会社のフィールド全体に対してPrefixQueryを作成できる必要があります。
例:
- 私のブランド
- 私の
- ブランド
- バラモン農場
- バラモン
- 農場
定期的に「bra」をクエリすると、両方のドキュメントにbraで始まる用語が含まれているため、両方のドキュメントが返されます。
ただし、最初の項はブラで始まるため、必要な結果は最後のエントリのみを返します。
助言がありますか?
lucene - lucene クエリで「句が多すぎる」のを防止する
私のテストでは、termquery とワイルドカード クエリで構成されるブール クエリからヒットを取得しようとしたときに、Too Many Clauses 例外が突然発生しました。
BooleanQuery.SetMaxClauseCount() を増やすように提案されているネットや見つかったリソースを検索しました。
これは私には怪しいように聞こえます..何にアップすればよいですか?この新しいマジック ナンバーがクエリに十分であることをどのように信頼できますか? すべての地獄が解き放たれる前に、この数をどこまで増やすことができますか?
一般的に、これは解決策ではないと感じています。もっと深い問題があるに違いない..
クエリは +{+companyName:mercedes +paintCode:a*} で、インデックスには約 250 万のドキュメントがあります。
c# - Lucene Query から個別の値を取得するより高速な方法
現在、私はこのようにしています:
ご覧のとおり、最初にすべてのフィールド (数千) を収集してからそれらを区別し、一部をスキップして一部を削除します。
これを行うためのより良い方法があるべきだと感じています。
c# - 特定の fieldName を持つすべての lucene 値を取得します
この問題を解決するために、私は新しい Lucene インデックスを作成しました。このインデックスでは、各フィールドのすべての可能な個別の値が個別にインデックス化されます。
つまり、単一の用語を持つ数千のドキュメントを含むインデックスです。
特定の用語のすべての値を抽出したい。たとえば、フィールド名が「companyName」のすべての値が必要です。
もちろん、WildcardQuery を定義することは解決策ではありません。どちらもすべてのフィールドを列挙し、正しいフィールド名を持つフィールドのみを保存していません。
lucene - Lucene 検索エラー スタック
Lucene を使用して検索しようとすると、次のエラーが表示されます。(バージョン 1.4.3)。なぜこれが表示されるのか、どうすれば修正できるのかについてのアイデアはありますか?
この同じ環境で、次のエラーも表示されます。
同じコードがテスト環境では機能しますが、本番環境では機能しません。2 つの環境の明らかな違いを識別できません。
lucene - Lucene インデックス内のドキュメントの削除と更新
Lucene.Net.dll
バージョン 2.0.0.4を使用しています。
そのクラスにはまたはIndexWriter
のメソッドがないようです。ここで何か不足していますか?このバージョンの Lucene.Net で削除、更新機能を実現するにはどうすればよいですか?DeleteDocument
UpdateDocument
バージョン 2.1 Lucene.dll は、ドキュメントの削除と更新をサポートしているようです。
ここにバージョン 2.1 のソース コードがありますが、すべてのファイルを 1 つずつダウンロードしてから DLL をビルドする必要があります。
どこかのサイトから最新Lucene.dll
の蛍光ペンをダウンロードできますか?