問題タブ [stemming]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
856 参照

solr - ステミングを有効にすると、語根を検索してもヒットしません

solr でサイトのインデックスを作成しました。ステミングが有効になっていない場合は、非常にうまく機能します。ただし、ステミングを使用すると、solr は語根を検索するときにヒットを返しません。スウェーデン語のステミングを使用しています。

たとえば、supportステミングを使用しない場合、 を検索するとヒットします。ステミングを使用して検索しsupportてもヒットしません。ただし、 を検索するとsupporten、一致するヒットが返されますsupport

supportクエリをデバッグすると、単語to が語幹になっていることがわかります (ちなみに、supporこれは正しくありませんが、問題にはなりません)。ただし、語幹が にsupporなっているため、元のクエリ語との一致も検索したいと考えています。

これについて何か助けていただければ幸いです!

0 投票する
2 に答える
5438 参照

r - Snowball Stemmer は最後の単語のみをステミングします

R の tm パッケージを使用して、プレーン テキスト ドキュメントのコーパス内のドキュメントをステミングしたいと考えています。コーパスのすべてのドキュメントに SnowballStemmer 関数を適用すると、各ドキュメントの最後の単語のみがステミングされます。

文書がコーパスに読み込まれる方法に関係していると思います。これをいくつかの簡単な例で説明します。

0 投票する
1 に答える
258 参照

nlp - 私が使用するのに最適なIRソフトウェアは?

チャットルームで人々がチャットしていることを取り上げて、次の情報検索を実行したいと思います。

  1. キーワードを取得する
  2. すべてのノイズワードを無視し、主に動詞を名詞にします
  3. 同じキーワードを多くの形式で保存しないように、キーワードのステミングを実行します
  4. 同義語キーワードがすでにストレージに保存されている場合は、新しいキーワードの代わりに既存の同義語を使用する必要があります
  5. 処理されたキーワードを、それが配置されたチャットメッセージとそれを発声したユーザーを参照して永続ストレージに保存します

この処理された情報を使用して、チャットルームで人々が何について話しているのかをゆっくりと把握し、これを使用して、これらのキーワードに基づいて関連するチャットルームなどを自動的に検索します。

あなたへの私の質問は次のとおりです:上記を行うための最良のC / C ++または.NETツールは何ですか?

0 投票する
3 に答える
5778 参照

java - R言語tm(テキストマイニング)パッケージでstemDocumentを使用するにはどうすればよいですか?

Javaを呼び出すR言語のtmパッケージのstemDocumentを使用してコーパスをステミングしようとしています。私はtmマニュアルの例を試しました:

次のエラーが発生します。

助けていただければ幸いです。私はJavaについて何も知りません。

ありがとう

0 投票する
2 に答える
1988 参照

c# - ポーター ステミング アルゴリズムの出力をテキスト ファイルに保存する

私はこのポーター アルゴリズム コードを C# で持っています。このコードの出力を txt ファイルに保存する方法を教えてもらえますか? また、ファイルの名前またはその内容を入力しますか?

システムを使用する; System.IO の使用;

名前空間ポーター { /*

}

0 投票する
2 に答える
142 参照

java - Java で単語を基本的な形に変換する

単語を基本的な形に変換するためにJavaで使用するのに適したライブラリは何ですか? つまり、入力に「go」「going」と「gone」がある場合、出力で「go」を 3 回受け取る必要があります。

0 投票する
1 に答える
387 参照

lucene - アクセントのある単語を使用したLuceneSpanishAnalyzerクラスの奇妙な動作

Lucene3.4でSpanishAnalyzerクラスを使用しています。アクセントのある単語を解析したいとき、奇妙な結果になります。たとえば、「comunicación」と「comunicacion」の2つの単語を解析すると、取得する語幹は「comun」と「comunicacion」になります。代わりに「maratón」と「maraton」を解析すると、両方の単語で同じ語幹が得られます(「maraton」)。

ですから、少なくとも私の意見では、同じ単語「comunicación」がアクセントを付けているかどうかによって異なる結果をもたらすのは非常に奇妙です。「comunicacion」という単語を検索すると、アクセントが付いているかどうかに関係なく、同じ結果が得られるはずです。

私が使用しているコードは次のコードです。

アクセントの有無にかかわらず、「コミュニケーション」の語幹を共有するすべての単語を取得できることがわかった解決策は、最初のステップでアクセントを外してから、アナライザーで解析することですが、私はしませんそれが正しい方法であるかどうかを知っています。

どうか、誰か助けてもらえますか?

0 投票する
1 に答える
170 参照

solr - solrで接頭辞を使用して単語に索引を付ける方法は?

私は solr 3.3 を使用してファイルのインデックスを作成しています。たとえば、色のようなカラフルなインデックスを作成したい場合など、solr インデックス ワードに接尾辞を付けたいと考えています。

0 投票する
2 に答える
356 参照

solr - solrで接頭辞を使用して単語に索引を付ける方法は?

重複の可能性:
solr でプレフィックスを使用して単語にインデックスを付ける方法は?

私はsolr 3.3を使用しています。接尾辞付きのsolrインデックスワードが必要です。

'book' と 'books' にインデックスを付けて 'book' を検索すると、solr は 'book' または 'books' を含むすべてのドキュメントを表示しますが、'rain' と 'rainy' にインデックスを付けて 'rain' を検索すると、solr show 「雨」を含むすべてのドキュメントですが、solr に「雨」または「雨」を含むドキュメントを表示させたいと考えています。

0 投票する
2 に答える
577 参照

python - ファイル/URL/文字列で事前定義されたキーワード/タグを見つけるための Python パッケージ

キーワード/タグのリストを取り、それらを特定の文字列/ファイル/URLに一致させることができるpythonパッケージはありますか?

具体的には、ステミングおよび/またはその他の同義語の一致方法を使用します。

つまり、事前に保存したキーワード:

Ski, Bike, Climb

私のテキスト:

Skiing in the mountains is great

でタグ付けする必要がありますSki

Skiing and mountain biking is fun

SkiAndでタグ付けする必要がありますBike

そして、どこかにマッピングする同義語ファイルがあるBike場合MTB

MTB is a great way to spend the day

タグ付けするべきBike