“stemming”の関連問題_Stack Overflow日本語サイト

0 投票する

4 に答える

56078 参照

java - Tokenizer、Stop Word の削除、Java でのステミング

何百もの単語の長い文字列を取り、IR システムで使用するためにストップワードと語幹を削除してトークン化するクラスまたはメソッドを探しています。

例えば：

「でっかい太った猫が、カンガルーに『君の一番おかしなやつ』って言った…」

トークナイザーは句読点を削除し、単語のを返しArrayListます

ストップワードリムーバーは、「the」、「to」などの単語を削除します

ステマーは各単語を「ルート」に減らします。たとえば、「おかしな」はおかしくなります

よろしくお願いします。

2009-11-03T00:04:29.463

0 投票する

2 に答える

1911 参照

algorithm - テキストから重要な文を抽出する

頻度パラメータなどを使ってテキストから重要な文を抽出する効果的な方法を知っていますか？それは「ステミング」（同様の文も検索）も実行できますか？

ソフトウェアの実装もあるのかな？

どうもありがとう

algorithm text-processing text-parsing stemming

2009-12-20T18:13:55.433

0 投票する

3 に答える

4232 参照

mysql - ステム付きの MySQL フルテキスト

私は自分のサイトに小さな検索機能を構築しています。ユーザーのクエリを取得し、キーワードをステミングしてから、ステミングされたキーワードに対してフルテキストの MySQL 検索を実行しています。

問題は、MySQL がステムをリテラルとして扱っていることです。起こっているプロセスは次のとおりです。

ユーザーが「野球」などの単語を検索する
私のステミングアルゴリズム (Porter Stemmer) は、「野球」を「野球」に変換します。
"baseball" と "baseballs" の一致が存在する必要がありますが、fulltext で "basebal" に一致するものは見つかりません。

フルテキストで LIKE 'basebal%' に相当することを行うにはどうすればよいですか?

編集：

これが私の現在のクエリです：

mysql full-text-search stemming

2010-01-14T04:11:37.253

0 投票する

1 に答える

732 参照

solr - Solr は、シノニムとステミングが使用されたときに使用された実際の最終クエリを返すことができますか?

solr が最終的なクエリを実行するために使用したクエリ用語を UI に表示できるようにしたいと考えています。たとえば、クエリ「run」を入力しても、バックグラウンドで solr はステミングを使用して「ran」と「running」のクエリも実行します。また、「run = sprint」を含む同義語が定義されている場合もあります。

「run」と入力したにもかかわらず、実際のクエリは「run run running sprint」だったことをユーザーに示したいと思います。

これを行う簡単な方法はありますか？

ありがとう！

solr synonym stemming

2010-08-19T14:35:30.487

0 投票する

2 に答える

2250 参照

python - Pythonでのストップワードの削除とステマー

私はやや大きなドキュメントを持っており、Pythonを使用してこのドキュメントの単語をストップワード除去およびステミングしたいと考えています。誰かがこれらの棚パッケージを知っていますか？そうでない場合は、大きなドキュメントに十分な速度のコードも歓迎します。ありがとう

python nlp stemming stop-words

2010-10-07T14:53:10.673

0 投票する

2 に答える

665 参照

php - PHP の Schinke ラテン語ステミングアルゴリズム

この Web サイトでは、 Snowballステミングシステムで使用するためのダウンロード用の「Schinke Latin ステミングアルゴリズム」を提供しています。

このアルゴリズムを使用したいのですが、Snowball は使用したくありません。

良い点:そのページには、PHP 関数に変換できる疑似コードがいくつかあります。これは私が試したことです：

私の質問:

1) このコードは正しく動作しますか? アルゴリズムのルールに従っていますか?

2) コード (パフォーマンス) をどのように改善できますか?

事前にどうもありがとうございました！

php algorithm function stemming

2010-10-13T23:38:19.893

0 投票する

4 に答える

3484 参照

nlp - インド語で使用できるステマーはありますか

(ヒンディー語、テルグ語) などのインド語のステマーの実装はありますか?

nlp stemming indic

2010-10-24T08:38:05.680

0 投票する

3 に答える

3139 参照

java - 単語ベース/語幹辞書

私のGoogle-fuが私を失敗させているようです。

単語のベースだけを含む、無料で入手できる単語ベースの辞書を知っている人はいますか? つまり、イチゴのようなものはイチゴになります。しかし、略語、スペルミス、または別のスペル (UK と US など) が含まれていませんか? Java ですぐに使用できるものであれば何でもよいのですが、マッピングのテキストファイルまたは読み取り可能なものであれば何でも役に立ちます。

java dictionary nlp stemming

2010-10-26T15:19:25.120

0 投票する

4 に答える

1730 参照

sql - SQL 単語のルートマッチング

主要な SQL エンジン (MS SQL、Oracle、MySQL) が、同じ語根を共有しているため、2 つの単語が関連していることを理解できるかどうか疑問に思っています。

後者は前者の部分文字列であるため、「network」を検索する場合、「networking」が一致しやすいことがわかっています。

しかし、「ネットワーキング」を検索するときに「ネットワーク」に一致する機能を SQL エンジンは持っているのでしょうか。

どうもありがとう。

sql nlp stemming lemmatization

2010-10-29T11:55:04.440

0 投票する

2 に答える

890 参照

c# - C# または Ruby でテキストを処理するためのインデックスステミング

このテキストを考えると：

「フレンズとは、友好的で友好的な分類クラスを分類する友好的な友好的なものです。花のような花は、花の流れに沿って流れます」

次の結果を得るには、テキストにステミングを適用する必要があります。

FAST検索エンジンとのインターフェースとして。FAST はコンテンツにインデックスを付けて、関連する検索結果をクエリに提供します。インデックス作成の 1 つの側面はステミングであり、これを解決するには C# または Ruby を使用する必要があります。

最善のアプローチについての意見をいただければ幸いです

c#ruby indexing stemming

2010-10-30T10:33:32.660

問題タブ [stemming]

Reference