“stemming”の関連問題_Stack Overflow日本語サイト

0 投票する

3 に答える

3657 参照

python - Nltk の WordNetLemmatizer は単語を語幹化できますか?

で単語の語幹を検索したいWordnet。wordnetステミング機能はありますか？このインポートをステミングに使用していますが、期待どおりに動作しません。

2011-07-12T00:49:56.383

0 投票する

2 に答える

1840 参照

python - Synsetのすべての属性を取得するにはどうすればよいですか？

私に例を教えてくださいそれは私がこの属性だけを知っている単語の属性のすべてを持っていますsynset：name、、lemma_namesdefinition

ありがとう

python nltk wordnet stemming

2011-07-12T04:39:01.287

0 投票する

2 に答える

37587 参照

python - NLTKでWordNetをインポートする

辞書をインポートしたいのですwordnetが、辞書フォームをインポートするとwordnet、このエラーが表示されます：

このディレクトリにwordnet2.1をインストールしましたが、インポートできませんこの問題の解決にご協力ください

python dictionary nltk wordnet stemming

2011-07-12T08:00:34.917

0 投票する

4 に答える

5844 参照

r - Rで語幹を語る語根の代わりに語根を語る語根

RでNLPを使用してステミングでルートワードの代わりにベースワードを取得する方法はありますか？

コード：

Rを使用して、「happyness happieshappys」の「happi」（ルートワード）の代わりに「happy」（ベースワード）を取得できますか？

r nlp stemming

2011-07-12T13:02:02.877

0 投票する

1 に答える

735 参照

python - ランカスターまたはポーター

Stemming に最適なのはどれlancasterですか? porterポーターstemmerはステミングするには年を取りすぎていますか?

python nltk stemming porter-stemmer

2011-07-12T14:41:24.857

0 投票する

1 に答える

505 参照

filter - Solrの検索/ファセットの結果は奇妙な振る舞いをします：「ステム化された」文字列しか取得しません（正しい定義であることを願っています）

タイトルが悪かったので申し訳ありませんが、問題の説明方法がわかりませんでした。私は日焼け（Pythonインターフェース）を使用して、djangoアプリ内でsolrを照会しています。私が検索しているとき、すべてが大丈夫です、私は完全な文字列を取得します。一方、ファセットを使用している場合（たとえば、「job_title」フィールドで）、語幹の単語のみを取得します。

このような：

など...これは私のテキストfieldType定義です：

PorterStemFilterは物事を台無しにするものだと思いますが、提案をアクティブにするためにそれが必要です。何か助けはありますか？

filter solr stemming facets

2011-07-21T13:24:41.553

0 投票する

2 に答える

1560 参照

solr - ステミングのために Solr でハイライト表示が遅くなるのを避ける

Solr の使用についてはまったくの初心者ですが、ご協力をお願いしたいと思います。クエリの結果を強調表示できるアプリケーションを開発しています。このために、正規表現フラグメンターを使用しています：

このフィールドは項ベクトルとオフセットでインデックス付けされます。

強調表示は、非常に遅いことを除けば、うまく機能します。これは、ハイライター/フラグメンターがすべての結果ドキュメントに対して再びステミングを行うためであることに気付きました。

なぜそれが起こるのか、どうすればこれを回避できるのか教えてください。(fastvectorhighlighter を使用すると問題が解決すると思っていましたが、そうではありませんでした)

solr highlighting stemming

2011-07-29T13:33:30.850

0 投票する

1 に答える

5441 参照

lucene - Lucene シノニム展開、ステミング、スペルチェックなど

Lucene を使用してデータベースのインデックスを作成し、特定のフィールド (フィールド名: キーワード) でフレーズ検索を実行しています。現在、次のコードを使用しています。

このコードはステミングには問題なく機能しますが、「Man」と入力して lucene インデックスに「male」というエントリがある場合のように、クエリを拡張して同義語検索を実行したいと考えています。 . 上記のコードの 1 行目にこれを追加しようとしましたが、結果は得られません。また、「信じられない」の代わりに「信じられない」と入力しても結果が得られるスペルチェックを導入したいと考えています。query=SynExpand.expand(userQuery, searcher, analyze,"keyword",serialVersionUID);

同義語の展開が機能しない理由と、スペルチェックの方法がわかりません。誰かが私を案内してくれたら、本当に感謝しています。

ありがとう！

lucene full-text-search spell-checking synonym stemming

2011-08-13T21:50:13.290

0 投票する

1 に答える

72 参照

php - PHPを使用して配列に含まれる類似フレーズの数を減らすにはどうすればよいですか？

フレーズ（数から数百）を含む配列があります。

例：

プログラム的に、PHPを使用して、単語ステミングのようなものを使用して、上記のリストを次のリストに減らしたいと思います（たとえば、接着剤アプリケーターと接着剤塗布は、ステムが同じであるため、互いに区別するのが難しい場合があります。）：：

これを行うための最良の方法は何ですか？

php stemming

2011-08-15T03:41:02.483

0 投票する

1 に答える

1846 参照

lucene - Solr では、なぜ 'built' は 'build' にステミングされず、'building' になるのですか?

私はこの投稿で2つのことを理解しようとしています:

フィールド型定義にステマーが定義されているにもかかわらず、「built」が「build」にステミングされないのはなぜですか。ただし、「構築」は「構築」にステミングされています
Luke を使用してインデックスを調べ、どの単語が何に語幹変換されたかを確認する方法。Luke では、「build」が「build」に語幹を変えられているのを見ることができませんでした。「ビルド」を検索することで「ビルド」を含む行を正常に取得できるため、Lucene がそれを抑止していることはわかっています。

このリンクは非常に役に立ちましたが、私の質問には答えませんでした。

参考までに、ここに schema.xml の部分を示します。

フィールド定義は

データセットは複数のドキュメントで構成されています。1 つのドキュメントは features フィールドに「Building」があり、1 つのドキュメントは同じフィールドに「built」があり、1 つのドキュメントは features フィールドに「Built-in」があります。

ファイル: hd.xml:

ファイル ipod_video.xml:

ファイル sd500.xml:

Lukeall-3.3.0 を使用して、これは「features:build」で検索した結果です。(予想される 3 つのドキュメントではなく) 1 つが返されることに注意してくださいここに画像の説明を入力。その 1 つのドキュメント内でさえ、ステミングは表示されません。

また、Luke で「features:built」を検索すると、次の 2 つのドキュメントが返されます。ここに画像の説明を入力

それらのいずれかを選択すると、元の「ビルド」が表示されますが、「ビルド」は表示されません。ここに画像の説明を入力

lucene solr stemming porter-stemmer

2011-08-18T01:10:47.587

問題タブ [stemming]

Reference