問題タブ [stemming]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
solr - Solr - ワイルド カード検索はステミング メソッドによって異なります
私のマシンでは 2 つのバージョンの solr が動作しています。と言っSolrVer1
てSolrVer2
SolrVer1
をフィールド タイプのステミング メソッドの下に適用しましたtext_en_splitting
SolrVer2
をフィールド タイプのステミング メソッドの下に適用しましたtext_en_splitting
通常の検索とほぼ同じように機能しますが、ワイルドカード検索を使用している間、ワイルドカード検索では文法がオンの結果が得られません SolrVer1
で検索する場合と同様に ray*
、SolrVer1
に比べて非常に少ないデータしか返されませんSolrVer2
。結果を観察したところ、と のみでSolrVer1
データを返さないことがわかりました。ray
rays
SnowballPorterFilterFactory
どこで使うべきか、どこで使うべきかわかりませんPorterStemFilterFactory
。それらの長所と短所は何ですか?
誰でもこの動作について考えられますか??
ありがとう
elasticsearch - 保護された単語を含む ElasticSearch 語幹
eコマース衣料品Webサイトの検索機能にElasticSearch(Ruby、Tire経由)を使用しています。ステミング フィルターが必要ですが、ステミングされない保護された単語のリストを指定できる必要もあります。現在、ステミングにスノーボール フィルターを使用していますが、保護された単語を指定できるかどうかわかりません。他のステミング フィルターも調べました。
- Porter Stem はステミングで攻撃的すぎるようで、奇妙な混乱を引き起こしています
- KStem は英語のみのようで、これは多言語プロジェクト用です
- Stemmer は Snowball に似ているが、より機能が豊富であると主張していますが、それに関する適切なドキュメントが見つかりません
私の質問は次のとおりです。スノーボールでこれらの目標を達成する方法はありますか (もしそうなら、どのように?)、または他のステミング フィルターのいずれかに切り替える必要がありますか?
c# - スタンドアロン C# プログラムで Microsoft SQL Server 2005 のワード ブレーカーを使用する方法
Microsoft SQL Server 2005 で全文検索インデックスを照会するプログラムを作成しています。インデックスが作成されるデータは、テキストの大きな塊 (複数行) です。
結果とともに表示する検索語を含むテキスト行のみを抽出する必要があります。
したがって、Sql Server のワード ブレーカーとステマーを使用して、BLOB のテキストの各行が検索文字列と一致するかどうかを判断する必要があります。これは、Windows 検索の標準のワード ブレーカーとステマーが異なるアルゴリズムを使用していることを理解しているためです。
2 つの dll (infosoft と langwrbk) を SQL Server のインストールからプログラムを実行しているマシンにコピーし、それらで regsvr32 を実行すると、レジストリにインストールされ、使用できるようになると思いました。彼ら。
そのような運はありません - regsvr32 を実行しても、レジストリには何も追加されないようです!
Windows に付属のワード ブレーカーとステマーで機能するコードがあり、動作しますが、違いが心配です (ここの他の投稿で不満を述べているのを見ました)。
apache - Stemmer in Solr
I was using the EnglishPorterFilterFactory for the application that I'm currently building in solr. Things are going fine. I tried using EnglishMinimalStemFilterFactory since I wanted to go for a less aggressive one. But I was not able to analyze the huge difference in the solr results. Whats the difference between the both? Also could you recommend me a less aggressive filter factory for pluralization stemming.
Thanks.
algorithm - Krovetz ステミング アルゴリズム (KStemming) のヘルプが必要
Krovetz ステミング アルゴリズム (Kstemming) のアルゴリズムを教えてください。その仕組みを知りたいです。
前もって感謝します
java - Java で KStem を構成して使用するにはどうすればよいですか?
ドキュメント内の単語をステミングしたいので、KStem に焦点を合わせました。私は Eclipse で作業しており、lucene-core jar ファイルを lib フォルダーにダウンロードしてビルド パスに追加することで Lucene を構成しました。KStem jar ファイルについても同様にこれを行いました。ただし、Java コードで KStem ライブラリを使用する方法に関する例やドキュメントを見つけることができません。そのためにSolrをセットアップする必要がありますか-それが何のためにあるのか完全にはわかりません。
python - pystemmerに言語を追加する
pystemmer
で使用したいwhoosh
のですが、私の言語はサポートされていません。
私の言語(Snowball )用の2つのsnowballファイルを見つけ、ここでアドバイスされているように、それらから*.cファイルを作成しました。
ここで、pystemmerに*.cファイルを含めたいと思います。それらをソースに追加し、言語ファイルのリンク/リストを見つけたすべてのファイルを編集しましたが、(ソースから)pystemmerをインストールした後も、言語を使用できません-リストにありませんStemmer.algorithms()
。
私は何が間違っているのですか?
sphinx - スフィンクス検索:ステミングされた頻度単語リストを取得する方法は?
indexer
コマンドラインツールから単語の頻度リストを取得し、語幹がない単語で取得しようとしていますがmorphology = stem_en
、インデックス設定で設定し、同じ語幹を持つ単語で検索自体が正常に機能します。語幹のある単語でそのリストを取得する方法はありますか?
python - 文の文字列内の単語の異なる認識を見つける - Python
(この質問は一般的な文字列チェックに関するものであり、自然言語処理自体ではありませんが、NLPの問題と見なす場合、現在のアナライザーが分析できる言語ではないことを想像してください。簡単にするために、英語の文字列を使用します例として)
単語を実現できる形式は 6 つしかないとしましょう
- 最初の文字は大文字
- 「s」を含む複数形
- 「es」を含む複数形
- 大文字 + "es"
- 大文字 + "s"
- 複数形または大文字を使用しない基本形
文中に出現する単語の最初のインスタンスのインデックスを見つけたいとしましょうcoach
。これらの 2 つの方法を実行する簡単な方法はありますか。
条件が長い場合
試行錯誤の繰り返し
java - Javaのイタリア語ステミングライブラリ
イタリア語の単語の文字列をステミングするために、Javaライブラリまたは何かを検索しています。
目標は、イタリア語を比較することです。この瞬間、「attacco」、「attacchi」、「attaccare」などの単語は異なると見なされますが、代わりに真の比較を返したいと思います。
Lucene、snowball.tartarus.orgなどのようなものを見つけました。他に役立つものはありますか、それともJavaでどのように使用できますか?
回答ありがとうございます。