問題タブ [stemming]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Nltk の WordNetLemmatizer は単語を語幹化できますか?
で単語の語幹を検索したいWordnet
。wordnet
ステミング機能はありますか?このインポートをステミングに使用していますが、期待どおりに動作しません。
python - Synsetのすべての属性を取得するにはどうすればよいですか?
私に例を教えてくださいそれは私がこの属性だけを知っている単語の属性のすべてを持っていますsynset
:name
、、lemma_names
definition
ありがとう
python - NLTKでWordNetをインポートする
辞書をインポートしたいのですwordnet
が、辞書フォームをインポートするとwordnet
、このエラーが表示されます:
このディレクトリにwordnet2.1をインストールしましたが、インポートできませんこの問題の解決にご協力ください
r - Rで語幹を語る語根の代わりに語根を語る語根
RでNLPを使用してステミングでルートワードの代わりにベースワードを取得する方法はありますか?
コード:
Rを使用して、「happyness happieshappys」の「happi」(ルートワード)の代わりに「happy」(ベースワード)を取得できますか?
python - ランカスターまたはポーター
Stemming に最適なのはどれlancaster
ですか? porter
ポーターstemmer
はステミングするには年を取りすぎていますか?
filter - Solrの検索/ファセットの結果は奇妙な振る舞いをします:「ステム化された」文字列しか取得しません(正しい定義であることを願っています)
タイトルが悪かったので申し訳ありませんが、問題の説明方法がわかりませんでした。私は日焼け(Pythonインターフェース)を使用して、djangoアプリ内でsolrを照会しています。私が検索しているとき、すべてが大丈夫です、私は完全な文字列を取得します。一方、ファセットを使用している場合(たとえば、「job_title」フィールドで)、語幹の単語のみを取得します。
このような:
など...これは私のテキストfieldType定義です:
PorterStemFilterは物事を台無しにするものだと思いますが、提案をアクティブにするためにそれが必要です。何か助けはありますか?
solr - ステミングのために Solr でハイライト表示が遅くなるのを避ける
Solr の使用についてはまったくの初心者ですが、ご協力をお願いしたいと思います。クエリの結果を強調表示できるアプリケーションを開発しています。このために、正規表現フラグメンターを使用しています:
このフィールドは項ベクトルとオフセットでインデックス付けされます。
強調表示は、非常に遅いことを除けば、うまく機能します。これは、ハイライター/フラグメンターがすべての結果ドキュメントに対して再びステミングを行うためであることに気付きました。
なぜそれが起こるのか、どうすればこれを回避できるのか教えてください。(fastvectorhighlighter を使用すると問題が解決すると思っていましたが、そうではありませんでした)
lucene - Lucene シノニム展開、ステミング、スペル チェックなど
Lucene を使用してデータベースのインデックスを作成し、特定のフィールド (フィールド名: キーワード) でフレーズ検索を実行しています。現在、次のコードを使用しています。
このコードはステミングには問題なく機能しますが、「Man」と入力して lucene インデックスに「male」というエントリがある場合のように、クエリを拡張して同義語検索を実行したいと考えています。 . 上記のコードの 1 行目にこれを追加しようとしましたが
、結果は得られません。また、「信じられない」の代わりに「信じられない」と入力しても結果が得られるスペル チェックを導入したいと考えています。query=SynExpand.expand(userQuery,
searcher, analyze,"keyword",serialVersionUID);
同義語の展開が機能しない理由と、スペルチェックの方法がわかりません。誰かが私を案内してくれたら、本当に感謝しています。
ありがとう!
php - PHPを使用して配列に含まれる類似フレーズの数を減らすにはどうすればよいですか?
フレーズ(数から数百)を含む配列があります。
例:
プログラム的に、PHPを使用して、単語ステミングのようなものを使用して、上記のリストを次のリストに減らしたいと思います(たとえば、接着剤アプリケーターと接着剤塗布は、ステムが同じであるため、互いに区別するのが難しい場合があります。 )::
これを行うための最良の方法は何ですか?
lucene - Solr では、なぜ 'built' は 'build' にステミングされず、'building' になるのですか?
私はこの投稿で2つのことを理解しようとしています:
フィールド型定義にステマーが定義されているにもかかわらず、「built」が「build」にステミングされないのはなぜですか。ただし、「構築」は「構築」にステミングされています
Luke を使用してインデックスを調べ、どの単語が何に語幹変換されたかを確認する方法。Luke では、「build」が「build」に語幹を変えられているのを見ることができませんでした。「ビルド」を検索することで「ビルド」を含む行を正常に取得できるため、Lucene がそれを抑止していることはわかっています。
このリンクは非常に役に立ちましたが、私の質問には答えませんでした。
参考までに、ここに schema.xml の部分を示します。
フィールド定義は
データ セットは複数のドキュメントで構成されています。1 つのドキュメントは features フィールドに「Building」があり、1 つのドキュメントは同じフィールドに「built」があり、1 つのドキュメントは features フィールドに「Built-in」があります。
ファイル: hd.xml:
ファイル ipod_video.xml:
ファイル sd500.xml:
Lukeall-3.3.0 を使用して、これは「features:build」で検索した結果です。(予想される 3 つのドキュメントではなく) 1 つが返されることに注意してください 。その 1 つのドキュメント内でさえ、ステミングは表示されません。
また、Luke で「features:built」を検索すると、次の 2 つのドキュメントが返されます。
それらのいずれかを選択すると、元の「ビルド」が表示されますが、「ビルド」は表示されません。