問題タブ [stemming]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - テキストドキュメントをステミングするためのPythonモジュールが必要です
前処理段階でテキストドキュメントをステミングするための優れたPythonモジュールが必要です。
これを見つけました
http://pypi.python.org/pypi/PyStemmer/1.0.1
しかし、提供されたリンク内のドキュメントが見つかりません。
ドキュメントやその他の優れたステミングアルゴリズムがどこにあるかは誰でも知っています。助けてください。
text - ステミングはテキスト分類の精度に悪影響を及ぼしますか?
ステミングは精度に悪影響を及ぼしますが、テキスト分類の再現率は向上します。それはどのように起こりますか?ステム処理を行うと、クエリとサンプル ドキュメント間の一致数が増えますよね?
stemming - 多言語全文: どのステミング [Snowball] 言語を使用する必要がありますか?
すべての言語の全文検索をサポートしたい場合、どのステミング言語を使用する必要がありますか。私の知る限り、その言語での検索をサポートするには、その特定のステミング言語を使用してインデックスを作成する必要がありますが、私の検索プログラムには異なる言語が含まれている可能性があるため、これは不可能です
-- マノジ
data-mining - 用語頻度に対するステミングの影響?
ストップワードの削除とステミングによって、用語頻度(TF)と逆文書頻度(IDF)はどのように影響を受けますか?
ありがとう!
solr - SolrのLanguage Stemmerについて説明が必要
アラビア語テキストの検索エンジンを開発するために、Solr で nutch を使用しています。アラビア語のテキストにステマーを実装する必要があります。Solr Stemmer を検索しているときに、これら 2 つのフィルターが提供されていることがわかりました。
<filter class="solr.ArabicNormalizationFilterFactory"/>
<filter class="solr.ArabicStemFilterFactory"/>
私はそれらを試しましたが、それらが何をするのか理解できませんでした..だから、誰かが私にいくつかの例を手伝ってくれませんか??
そして、これら2つはこれを行います:
العملات から語幹をとった
ベスタンに語幹
ありがとうございました。
rules - 形態素解析用の Drools
Drools はステミングや POS タグ付けのルールを書くのに適していますか? より良いルール言語の提案を歓迎します。ルールベースのアプローチを使用するこの分野の多くの論文を読みましたが、ルールを記述するために使用されたライブラリまたはフレームワークについて言及したものはありませんでした。
私のルールは次のようなものです。
... 等々。
問題は、これらのルールが多すぎて処理できないことです。10 個の文字グループがあり、各グループに属する各文字にケースがあると想像してください。単語を正しく分類するためのルールは簡単に 1,000 を超えます。これらのルールのうち 30 個を単純な C# コードで記述しましたが、これだけで、このアプローチがいかに非効率的であるかを理解できました。私はすでにルールを紙の上にツリーとして整理しています。それらを挿入、表現、微調整、テストするための適切なフレームワークが必要なだけです。
私の質問が明確であることを願っています。ありがとうございました。
django - ElasticSearchを使用したHaystackでの多言語ステミング
ElasticSearchをバックエンドとしてDjangoHaystackでユーザーごとにステミング言語を設定したいと思います。
Djangoモデルには、英語、スペイン語、ドイツ語などのコンマ区切りのタグcharfieldを含む画像オブジェクトがあります...:tags_en、tags_es、tags_deなど。
スペイン語のユーザーはtags_esでのみ検索する必要があり、クエリはスペイン語でもステミングする必要があります。
そのような機能については何も見つかりませんでした。HaystackのElasticSearchバックエンド内でテンパリングしてもかまいません。私を正しい方向に向けてもらえますか?Solrを使用したHaystackのソリューションがあれば、それも問題ありません。
apache - Apache Solr でのステミング
データのインデックス作成に Apache Solr を使用しており、ステミング アナライザーを使用したいと考えていました。「PorterStemFilterFactory」が含まれていたため、solr の例の schema.xml で指定された「text_en_splitting」フィールド タイプを使用しました。データのインデックスを作成し、[分析] ページでテストしたところ、語幹化された結果が表示されました。しかし、検索すると、ステム化された結果を使用していないことがわかり、応答がありません。たとえば、「書き込み」をインデックスに登録しましたが、「書き込み」で検索しても応答がありません。ここで助けが必要です。
前もって感謝します。
lucene - ElasticSearchで複数のステミング言語を使用する
私は、ユーザーがさまざまな国にいて、テキストコンテンツを投稿できるWebサイトの検索エンジンを構築しています。
私はそれを考慮します:-フランス語はフランス語と英語でコンテンツを生成します-ドイツ語はドイツ語と英語などでコンテンツを生成します...
異なるスノーボールステマー言語を同時に使用して検索できるかどうかを知りたいので、同時に適切な結果を得ることができます。
スノーボールステマー言語ごとに1つのインデックスを作成する必要がありますか?
そのような場合の既知のパターンはありますか?
ありがとう
c# - Lucene.NET PorterStemFilter ソースの例とそれは私に適していますか?
まず、私たちが使用している Lucene.NET のバージョンは Sitecore 6.4.1 に同梱されていたため、最新ではなく、今までアナライザーとステミング (大きな間違い!)。
基本的に、インデックス時またはクエリ時のいずれかでステミングの何らかの形式を実装しようとしています (どちらが最適かについてのアドバイスを探しています)。私たちが抱えている主な問題は、ステミングに関するすべてのドキュメントが Java で書かれていることです。これを C# に移行するのに本当に苦労しています。誰かがソースの例を提供するか、この分野のリソースへのリンクを提供できることを願っています.
私たちの Lucene.NET のバージョンは非常に古いため、Snowball Analyzer を使用することはできないと思います (私たちのバージョンでは使用できません)。そのため、PorterStemFilter を検討しています。
Lucene をアップグレードせずに Stemming を機能させる方法について、どなたか支援やアドバイスをいただけますか?
敬具
スティーブ