問題タブ [stemming]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
solr - ステミングを有効にすると、語根を検索してもヒットしません
solr でサイトのインデックスを作成しました。ステミングが有効になっていない場合は、非常にうまく機能します。ただし、ステミングを使用すると、solr は語根を検索するときにヒットを返しません。スウェーデン語のステミングを使用しています。
たとえば、support
ステミングを使用しない場合、 を検索するとヒットします。ステミングを使用して検索しsupport
てもヒットしません。ただし、 を検索するとsupporten
、一致するヒットが返されますsupport
。
support
クエリをデバッグすると、単語to が語幹になっていることがわかります (ちなみに、suppor
これは正しくありませんが、問題にはなりません)。ただし、語幹が にsuppor
なっているため、元のクエリ語との一致も検索したいと考えています。
これについて何か助けていただければ幸いです!
r - Snowball Stemmer は最後の単語のみをステミングします
R の tm パッケージを使用して、プレーン テキスト ドキュメントのコーパス内のドキュメントをステミングしたいと考えています。コーパスのすべてのドキュメントに SnowballStemmer 関数を適用すると、各ドキュメントの最後の単語のみがステミングされます。
文書がコーパスに読み込まれる方法に関係していると思います。これをいくつかの簡単な例で説明します。
nlp - 私が使用するのに最適なIRソフトウェアは?
チャットルームで人々がチャットしていることを取り上げて、次の情報検索を実行したいと思います。
- キーワードを取得する
- すべてのノイズワードを無視し、主に動詞を名詞にします
- 同じキーワードを多くの形式で保存しないように、キーワードのステミングを実行します
- 同義語キーワードがすでにストレージに保存されている場合は、新しいキーワードの代わりに既存の同義語を使用する必要があります
- 処理されたキーワードを、それが配置されたチャットメッセージとそれを発声したユーザーを参照して永続ストレージに保存します
この処理された情報を使用して、チャットルームで人々が何について話しているのかをゆっくりと把握し、これを使用して、これらのキーワードに基づいて関連するチャットルームなどを自動的に検索します。
あなたへの私の質問は次のとおりです:上記を行うための最良のC / C ++または.NETツールは何ですか?
java - R言語tm(テキストマイニング)パッケージでstemDocumentを使用するにはどうすればよいですか?
Javaを呼び出すR言語のtmパッケージのstemDocumentを使用してコーパスをステミングしようとしています。私はtmマニュアルの例を試しました:
次のエラーが発生します。
助けていただければ幸いです。私はJavaについて何も知りません。
ありがとう
c# - ポーター ステミング アルゴリズムの出力をテキスト ファイルに保存する
私はこのポーター アルゴリズム コードを C# で持っています。このコードの出力を txt ファイルに保存する方法を教えてもらえますか? また、ファイルの名前またはその内容を入力しますか?
システムを使用する; System.IO の使用;
名前空間ポーター { /*
}
java - Java で単語を基本的な形に変換する
単語を基本的な形に変換するためにJavaで使用するのに適したライブラリは何ですか? つまり、入力に「go」「going」と「gone」がある場合、出力で「go」を 3 回受け取る必要があります。
lucene - アクセントのある単語を使用したLuceneSpanishAnalyzerクラスの奇妙な動作
Lucene3.4でSpanishAnalyzerクラスを使用しています。アクセントのある単語を解析したいとき、奇妙な結果になります。たとえば、「comunicación」と「comunicacion」の2つの単語を解析すると、取得する語幹は「comun」と「comunicacion」になります。代わりに「maratón」と「maraton」を解析すると、両方の単語で同じ語幹が得られます(「maraton」)。
ですから、少なくとも私の意見では、同じ単語「comunicación」がアクセントを付けているかどうかによって異なる結果をもたらすのは非常に奇妙です。「comunicacion」という単語を検索すると、アクセントが付いているかどうかに関係なく、同じ結果が得られるはずです。
私が使用しているコードは次のコードです。
アクセントの有無にかかわらず、「コミュニケーション」の語幹を共有するすべての単語を取得できることがわかった解決策は、最初のステップでアクセントを外してから、アナライザーで解析することですが、私はしませんそれが正しい方法であるかどうかを知っています。
どうか、誰か助けてもらえますか?
solr - solrで接頭辞を使用して単語に索引を付ける方法は?
私は solr 3.3 を使用してファイルのインデックスを作成しています。たとえば、色のようなカラフルなインデックスを作成したい場合など、solr インデックス ワードに接尾辞を付けたいと考えています。
solr - solrで接頭辞を使用して単語に索引を付ける方法は?
私はsolr 3.3を使用しています。接尾辞付きのsolrインデックスワードが必要です。
'book' と 'books' にインデックスを付けて 'book' を検索すると、solr は 'book' または 'books' を含むすべてのドキュメントを表示しますが、'rain' と 'rainy' にインデックスを付けて 'rain' を検索すると、solr show 「雨」を含むすべてのドキュメントですが、solr に「雨」または「雨」を含むドキュメントを表示させたいと考えています。
python - ファイル/URL/文字列で事前定義されたキーワード/タグを見つけるための Python パッケージ
キーワード/タグのリストを取り、それらを特定の文字列/ファイル/URLに一致させることができるpythonパッケージはありますか?
具体的には、ステミングおよび/またはその他の同義語の一致方法を使用します。
つまり、事前に保存したキーワード:
Ski,
Bike,
Climb
私のテキスト:
Skiing in the mountains is great
でタグ付けする必要がありますSki
Skiing and mountain biking is fun
Ski
Andでタグ付けする必要がありますBike
そして、どこかにマッピングする同義語ファイルがあるBike
場合MTB
MTB is a great way to spend the day
タグ付けするべきBike