問題タブ [porter-stemmer]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - ポーター ステミング アルゴリズムの出力をテキスト ファイルに保存する
私はこのポーター アルゴリズム コードを C# で持っています。このコードの出力を txt ファイルに保存する方法を教えてもらえますか? また、ファイルの名前またはその内容を入力しますか?
システムを使用する; System.IO の使用;
名前空間ポーター { /*
}
c - 与えられたポーターステマーをCに統合する
私は以下がCのポーターステマー実装を持っているのを見ましたhttp://tartarus.org/martin/PorterStemmer/
ただし、何度か試しましたが、コードに統合できません。誰かがダウンロードしたファイルを呼び出す方法と、文字列をステム処理するためにファイルに渡す必要があるものを教えてもらえますか?
言い換えれば、私は文字列をステミングする必要があるプログラムを持っていて、そのためのポーターステマーが必要です。上記の使い方を考えていますが、ダウンロードしたファイルの使い方がわかりません。例を挙げてください
solr - SolrSnowballステマーがスペイン語と矛盾しています
私はこのステムフィールドを持っています:
検索クエリalquileres
(rents)の期待される結果は、 alquiler
(rent)と一致します。しかし、Solr Adminサイトの「FieldAnalysis」にアクセスして、のインデックス値alquiler
とクエリ値を確認するとalquileres
、次のようになります。
- インデックスを作成
alquiler
すると、にステム処理されalquil
ます。 - クエリ
alquileres
を実行すると、にステミングされalquiler
ます。
したがって、単語の複数形()を検索する単純なケースは、alquileres
その単数形()と一致しませんalquiler
。
インデックスとクエリの両方を同じ語幹(alquiler
またはalquil
)にまとめるべきではありませんか?これはアルゴリズムの制限ですか、それとも私の側からの誤解/設定ミスですか?
c# - データベースでのテキストベースの検索のベストプラクティス
さまざまなテキストベースのフィールドを検索する必要があるアプリケーションがあります。このアプリケーションは、NHibernateをORMとして使用して開発されています。
memories
検索キーワードがであるのに商品の説明が含まれているなど、キーワードが類似した単語と一致する場合でも関連する結果を返すことができるように、検索にポーターステミングを実装したいと思いますmemory
。
誰かがそのようなタイプの検索のベストプラクティスを提案できますか?頭に浮かぶ最初のアイデアは、同じフィールドの2つのバージョンをデータベースに格納することです。次に例を示します。
列はDescription
、Webサイト管理者が入力したテキストであり、フロントエンドに表示されるテキストです。
にはDescription_Search
同じテキストが含まれますが、Porter-Stemmingアルゴリズムを通過します。Description_Search
その場合、検索クエリは、ではなくフィールドに基づいて行われDescription
ます。
これは意味がありますか?ほぼ同じテキストの2つのバージョンを保存しなければならないのはスペースの無駄ですか?
また、Lucene.Net
そのような場合に役立ちますか?また、フルテキストベースの検索のためにLucene.Netを統合することも検討していますが、まだ詳細には検討していません。
前もって感謝します!
java - ステミングの逆のプロセス
Lucene Snowball Analyzer を使用してステミングを実行します。結果は意味のある言葉ではありません。この質問を参照しました。
解決策の 1 つは、単語の語幹バージョンと単語の 1 つの安定したバージョンとの間のマップを含むデータベースを使用することです。(communiti から community への例。communti のベースが何であれ(communities / または他の単語))
そのような機能を実行するデータベースがあるかどうか知りたいです。
php - サイト検索で使用されるPorterStemmer
私のウェブサイトの検索エンジンには、ここhttp://tartarus.org/~martin/PorterStemmer/で入手可能なPHPバージョンのPorterStemmer単語ステミングアルゴリズムを使用していました。
問題は、「funny」のような単語が「funni」に変わることに気付いたところです。つまり、正しい一致が検索結果に表示されません。
Porter Stemmerアルゴリズムはサイト検索に適していますか、検索に適したアルゴリズムはありますか?また、どうすれば問題を解決できますか?
java - ポーターステマーコード
私はJavaが初めてです。NLPのコースを受講しています。ポーター ステマー Java コードで入力ファイルを実行する方法を知りたいです。
lucene - LuceneStemmerパッケージのダウンロード
luceneのこれら2つのクラスを使用したい-
しかし、ダウンロードしたlucene3.5ではこれら2つのクラスが見つかりません。これら2つのクラスを持つjarファイルをどこからダウンロードできるか教えてください。
PS-lucene 3.0.1 jarを検索しようとしましたが、見つかりませんでした。
ありがとうございました。
apache - Apache Solr でのステミング
データのインデックス作成に Apache Solr を使用しており、ステミング アナライザーを使用したいと考えていました。「PorterStemFilterFactory」が含まれていたため、solr の例の schema.xml で指定された「text_en_splitting」フィールド タイプを使用しました。データのインデックスを作成し、[分析] ページでテストしたところ、語幹化された結果が表示されました。しかし、検索すると、ステム化された結果を使用していないことがわかり、応答がありません。たとえば、「書き込み」をインデックスに登録しましたが、「書き込み」で検索しても応答がありません。ここで助けが必要です。
前もって感謝します。
solr - Solr での KStem フィルターのカスタマイズ
Solr で Porter から KStem へのステミング フィルターの切り替えを評価しようとしています。direct_conflations.txt ファイルやその他のファイルを介して KStem を構成する機能への参照を参照していますが、このファイルをどのようにフォーマットする必要があるか、または KStem にこの構成ファイルをロードするように指示する方法に関するドキュメントを見つけることができないようです。
KStem をロードする schema.xml の solr 構成の例を次に示します。
Porter を使用すると、保護された単語を次のように構成できます。
KStemを構成するための同等の方法があるかどうか疑問に思っています.誰かが知っているか、これがどこに文書化されているか知っていますか?