問題タブ [standardanalyzer]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
689 参照

c# - C#でHunspell TokenFilterを使用するLucene StandardAnalyzer?

Lucene の StandardAnalyzer に TokenFilter を追加するにはどうすればよいですか? または、同じことを行い、TokenFilter も使用できるようにする別のアナライザーがありますか?

C# で Hunspell の TokenFilter を使用していますが、インデックス作成のプロセスをどこにどのように接続すればよいかわかりません。

一方、私は持っています:

から:

http://devhost.se/blog/post/2011/04/07/C-port-of-lucene-hunspell.aspx

誰でも助けることができますか?

0 投票する
1 に答える
704 参照

java - StandardAnalyzer-Apache Lucene

私は実際に、いくつかのテキストファイルをStandardAnalyzerに入力し、そのファイルの内容をStandardAnalyzerの出力(すべてのストップワードをトークン化して削除する)に置き換えるシステムを開発しています。これまでに開発されたコードは:

readFileToString(f)は、ファイルの内容を文字列表現に変換する単純な関数です。私が得ている出力は、それぞれスペースまたはそれらの間の改行が削除された単語です。アナライザーの出力後に元のスペースまたは改行文字を保持して、元のファイルの内容をStandardAnalyzerのフィルター処理された内容に置き換えて、読み取り可能な形式で表示できるようにする方法はありますか?

0 投票する
2 に答える
515 参照

java - 使用する適切なLuceneアナライザーは何ですか?

アイテム名を数字と記号で索引付けすることに関して問題があります。私のデータのサンプルを以下に示します。

これらの記号は非常に重要であるため、記号を削除せずに、空白または末尾のスペースでデータをトークン化したいです。そのため、「plywood sta。clara」、「bi square 2」、「X 3」、または「angle orange 2-1/2」を検索すると、結果が表示されます。ホワイトスペースアナライザーを使用しようとしましたが、シンボルが削除されます。standardanalyzerも試しましたが、ストップワードと記号も削除されます。代わりに使用するのに最適なアナライザーは何ですか?

0 投票する
1 に答える
258 参照

lucene - Luceneが大文字の文字列と一致していません

StandardAnalyzerでLuceneSearchEngine(v36)を使用しています。MultiFieldQueryParserを使用しています。

私のフィールドの1つは、英数字とポイントを含むバージョン名であるため、NOT_ANALYZEDとして設定されています。このフィールドに大文字が含まれている場合、検索結果は見つかりません。何か案が ?

詳細:

このフィールドには、次のような値が含まれています。

  • version1.26.12.test.a
  • version1.26.12.test.b
  • v1.2
  • version1.Dummy

私の検索では、上記の最初の3つの例の結果が返されますが、最後の例の結果は返されません。

私は、Collections.emptySet()で標準のストップワードをバイパスしたことを除いて、Luceneをまったくカスタマイズしていません。

どうもありがとう。ディミトリ

0 投票する
2 に答える
162 参照

java - LuceneのStandardAnalyzerで文字「A」を例外にする方法は?

Lucene を使用して Android で医学辞書を作成しました。単語と定義はデンマーク語でStandardAnalyzer、エントリの索引付けと検索に使用しています。アイデアは、自分のエントリをクリックするとListView、別のエントリがActivity上部に表示され、その下に定義が表示されるというものです。

ディクショナリは、エントリを除いて、期待どおりに機能しA.ます。をクリックするA.ListView、次Activityは画面の背景色のみが表示されます。単語、定義、テキストは表示されません。

私の推測では、エントリのが正しく表示されるため、インデックス作成プロセス中にStandardAnalyzer文字がストップ ワードとしてカウントされます。どうすればこれを回避できますか?AActivityV.

0 投票する
1 に答える
71 参照

clucene - clucene で特定のドキュメントがインデックス化されないようにする

clucene を使用して検索インデックスを作成していますが、不快な用語を含むドキュメントがインデックスに追加されないようにしたいと考えています。攻撃的なドキュメントがまだ追加され、攻撃的でない検索で返されるため、停止リストで StandardAnalyzer を使用するのは十分ではありません。

代わりに、ドキュメントを作成し、不快な言葉が含まれているかどうかを確認し、含まれていない場合にのみ追加することを望んでいます。

乾杯!

0 投票する
1 に答える
198 参照

search - Lucene の単一単語ヒットが見つかりません

私は、さまざまなものに関する記事を調べて、それに関する説明を選択するシステムを作成しています。基本的に百科事典のようなものです。最初は、「cat」で検索すると、「CAT5」「CAT6」「.cat」などの記事がたくさんヒットするという問題に遭遇しました。しかし、一番のヒットはやはり「猫」でした。これには StandardAnalyzer を使用していました。代わりに WhitespaceAnalyzer を使用するようにというヒントを受け取りました。これにより、元の問題が解決され、Lucene が CAT6 などの記事でヒットをドロップするようになりましたが、記事「Cat」はヒット リストにまったく含まれなくなりました。どうしてこれなの?たとえば、別のアナライザーへの提案はありますか?

編集: 検索自体のコード: