問題タブ [lucene-highlighter]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
lucene - pom.xml.template は、プロジェクトを依存関係として使用するために知っておくべきことをすべて教えてくれますか?
term-highlighter というlucene サンドボックスの貢献を pom.xml に追加しようとしています。私はMavenにあまり詳しくありませんが、コードにはpom.xml.templateがあり、次のような依存関係を追加すると暗示されるようです:
それはうまくいくかもしれません。pom.xml ファイルに lucene-community プロジェクトを追加するのを手伝ってくれる人はいますか?
コメントありがとうございます。バージョンを追加するだけで十分であることがわかりました。使用していた lucene-core バージョンと一致するはずだと思いました。
.net - 検索フィールドで強調表示されたフラグメントの開始インデックスと終了インデックスを取得する
「私の検索では、フィールドから強調表示されたフラグメントが返されます。特定の検索されたドキュメントのそのフィールドで、そのフラグメントがどこで始まりどこで終わるかを知りたいです。」
例えば。
上記の行で「強調表示されたフラグメント」を検索していると考えてください(上記のパラグラフを単一のドキュメントと考えてください)。
フラグメンターを次のように設定しています:
GetBestFragmentの出力は次のようになります。"から強調表示されたフラグメントを返します"
上記のテキストでこのフラグメントの開始インデックスと終了インデックスを取得することは可能ですか(開始が 10 で終了が 45 であるとします)。
lucene - Lucene蛍光ペンの使用に関する問題
アプリケーションにLuceneHighlighter2.4.1を使用しています。蛍光ペンを使用して、最も一致するフラグメントを取得し、それらを表示します。関数String[]getFragmentsWithHighlightedTerms(アナライザーアナライザー、クエリクエリ、文字列fieldName、文字列fieldContents、intfragmentsNumber、intfragmentSize)を呼び出します。例えば :
関数getFragmentsWithHighlightedTerms()は次のように定義されています
今私の問題は、highlighter.getBestFragments()メソッドが重複を返していることです。つまり、最初の5つのフラグメントを表示する場合は、いいえ。1と3は同じです。何が原因なのかよくわかりません。コードに問題はありますか?
parsing - MultiFieldQueryParser とともに Lucene Highlighter を使用する
Lucene Highlighter を使用して、Lucene Index で見つかった一致を強調表示しています。さて、私の問題は、ドキュメントの複数のフィールドを検索する必要があり、一致するテキストを表示する必要がある場合、どのフィールドでヒットが発生したかを取得するにはどうすればよいですか?
蛍光ペンに使用しているコードは、基本的にここの 2 番目の関数です。
ヒットが発生したフィールドがわからない場合、一致するフラグメントを取得するには、上記で定義した関数にどのフィールドを渡せばよいでしょうか?
lucene.net - Lucene.NET ハイライター プラグインの強調表示がおかしい
Lucene.NET Highlighter を検索に追加しようとしていますが、非常に奇妙な強調表示を行っています。何が間違っていますか?
強調表示コードは次のとおりです。
を検索すると、次の"lorem"
bestFragment 値が得られます。
ご覧のとおり、単なる"Lorem"
. なんで?
これを賢明に動作させるにはどうすればよいですか?
を使用してStandardAnalyzer
おり、クエリは次のようになります"content:lorem"
*編集: * Lucene.NET 2.9.2 を使用しています
ありがとう
lucene - Lucene エンティティ抽出
エンティティ用語の有限辞書が与えられた場合、Lucene を使用してインテリジェントなタグ付けでエンティティ抽出を行う方法を探しています。現在、私は Lucene を次の目的で使用できます:
- あいまいさのある複雑なフレーズの検索
- 結果の強調表示
ただし、次の方法はわかりません:
-一致したフレーズの正確なオフセットを取得する -一致
ごとにエンティティ固有の注釈を付ける (単にすべてのヒットのタグ)
私は Explain() メソッドを使用してみましたが、これはヒットしたクエリの用語のみを提供し、元のテキスト内のヒットのオフセットは提供しません。
誰かが同様の問題に直面していて、潜在的な解決策を喜んで共有していますか?
助けてくれてありがとう!
java - Solr WordDelimiterFilter + Lucene ハイライター
Solr の WordDelimiterFilter からのトークンで正しく動作するように、Lucene から Highlighter クラスを取得しようとしています。90% の確率で機能しますが、一致するテキストに「1,500」などの「,」が含まれている場合、出力は正しくありません。
予想: 'これを1,500 個テスト'
観測: 'test 1 1,500 this'
Highlighter が再結合を台無しにしているか、WordDelimiterFilter がトークン化を台無しにしているかは現在わかりませんが、何かが不満です。私のpomからの関連する依存関係は次のとおりです。
org.apache.lucene lucene-core 2.9.3 jar コンパイル org.apache.lucene lucene-highlighter 2.9.3 jar コンパイル org.apache.solr solr-core 1.4.0 jar コンパイル
この問題を示す簡単な JUnit テスト クラスを次に示します。
アイデアや提案はありますか?
lucene - Lucene Fast Vector ハイライター フラグメント
Lucene は初めてです。Lucene FVH を取得して、検索クエリからほぼ開始するのではなく、検索クエリを中心としたフラグメント/スニペットを返す方法はありますか? また、改行文字でのみフラグメント化するように FVH フラグメンタに指示する方法はありますか? ありがとう!
lucene - phraseQuery で Lucene ハイライターを使用するには?
phraseQuery で Lucene のハイライターを使用するには?
私はGoogle検索を行いましたが、spanScorer、QueryScorer、およびそのようないくつかのものと混同しています..
私が使用しているLuceneのバージョンは3.0.3です
私の要件は次のとおりです
-複数フィールドクエリを実行する
-ワイルドカード検索を実行する-
フレーズクエリを実行する
上記のすべてを強調する必要があります。
どうすればこれを達成できますか?
lucene - ルセン 3.1 を使用した KWIC
Lucene を勉強していますが、まだ理解できないことがあります。まず、Lucene の最新バージョンである 3.1 を使用します。
その後、すべてが正常に機能しますが、蛍光ペンとフラグメントを使用できません。
最後のバージョンでそれを使用する方法を知っている人はいますか?
ありがとう、そして私の英語でごめんなさい...