問題タブ [stemming]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
12828 参照

java - Javaのステミングライブラリ

Javaでステミングするためのライブラリはありますか?

0 投票する
3 に答える
754 参照

ruby - ルビー:英語の不規則動詞を「知っている」ステマーはありますか?

ルビー語幹https://github.com/aurelian/ruby-stemmerがありますが、1)英語の不規則動詞を語幹化しない2)Windowsでネイティブ拡張機能を構築できません。問題の少なくとも1つを修正する代替手段はありますか?

0 投票する
1 に答える
616 参照

java - データ統合の問題-類似したエンティティを統合する方法

同じテーブル内に非常によく似た行を持つデータベースがあります。これらの行は、列の値がほぼ等しいため、類似しています。これらの対応する行を1つの行に統合する必要があります。

たとえば、これら2つのユーザー(u1とu2)を統合する必要があります。

私はいくつかの編集距離ステミングテクニックを使用することを考えています。他のアルゴリズムとテクニックの提案?使用するのに役立つライブラリはありますか(できればPythonまたはJavaで)?

0 投票する
2 に答える
896 参照

javascript - JavaScript でステミングするロシア語のポーター

JavaScript に由来するロシアのポーターの例を誰かが持っていますか?

0 投票する
1 に答える
1267 参照

mysql - SQL Server vs MySQL: CONTAINS(*,'FORMSOF(THESAURUS,word)')

私はショックを受けました。

過去 3 ~ 4 日間、mysql でステミング (およびシノニム検索) を実装する方法を考えていましたが、SQL Server でクエリが非常に簡単であることがわかりました。

MySqlで可能ですか?そのようなものはありませんか?

0 投票する
1 に答える
941 参照

search - スフィンクスをポーランド語で検索?

Django で書かれた Web サイトの検索ソリューションを実装したいと考えています。利用可能なオプション (Solr、Sphinx、Xapian、PostgreSQL/Tsearch3、MySQL を調査しました) から、Sphinx が最も優れているように見えます。ただし、ポーランド語のステミングはサポートされていません。ポーランド語は、検索可能にしたいデータの言語です。

Sphinx でサポートされていない言語を処理する最善の方法は何ですか? Ispell 辞書からステミング コーパスを作成できるという直感がありました。Sphinxでそれを機能させるにはどうすればよいですか?

0 投票する
2 に答える
4789 参照

java - Lucene ステマーの違い: EnglishStemmer、PorterStemmer、LovinsStemmer

Lucene (パッケージ org.tartarus.snowball.ext) のこれらのステマーを比較した人はいますか: EnglishStemmer、PorterStemmer、LovinsStemmer? それらの背後にあるアルゴリズムの長所/短所は何ですか? それぞれをいつ使用する必要がありますか?あるいは、英単語のステミングに利用できるアルゴリズムが他にもあるのではないでしょうか?

ありがとう。

0 投票する
2 に答える
19982 参照

solr - Solrでステミングを構成するには?

solr インデックスに「American」を追加します。「アメリカ」で検索してもヒットしません。

結果を取得するには、schema.xml をどのように構成する必要がありますか?

現在の構成:

0 投票する
7 に答える
61914 参照

java - Luceneで英語の単語をステミング

Javaアプリケーションでいくつかの英語のテキストを処理しているので、それらをステム処理する必要があります。たとえば、「アメニティ/アメニティ」というテキストから、「amenit」を取得する必要があります。

関数は次のようになります。

Lucene Analyzerを見つけましたが、必要なものには複雑すぎるように見えます。 http://lucene.apache.org/java/2_2_0/api/org/apache/lucene/analysis/PorterStemFilter.html

アナライザーを構築せずに単語を語幹にするためにそれを使用する方法はありますか?アナライザーのビジネスをすべて理解しているわけではありません...

編集:私は実際にステミング+レンマ化が必要です。Luceneはこれを実行できますか?

0 投票する
4 に答える
12856 参照

analytics - Javascriptで単語の削除を停止します

こんにちは私はのテキストからストップワードを削除するライブラリを探していますJavascript。私の最終目標はtf-idfを計算し、指定されたドキュメントをベクトル空間に変換することです。これはすべてですJavascript。誰かが私にそれをするのを助ける図書館を教えてもらえますか?ストップワードを削除するための図書館だけでも素晴らしいでしょう。