問題タブ [snowball]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

68 問題

0 投票する

1 に答える

362 参照

search - カスタムアナライザーelasticsearch soundex plus snowball

私にとっては次のように機能します（「testing」を検索すると、「test」を含むフィールドも返されます）： index : analysis : analyzer : default : type : snowball language : english elasticsearch.ymlファイルで設定した場合。

これをインストールしたsoundexと組み合わせたいので、これを試しました：

index : analysis : analyzer : default : type : custom tokenizer : standard filter : [standard, lowercase, soundex_filter, stemming] filter : soundex_filter : type : phonetic encoder : soundex replace : true stemming : type : snowball language : english

しかし成功せず、どれも機能していないようです (ステミングやサウンデックスはありません)

フィルターの組み合わせに成功した人はいますか?

2015-01-12T22:33:13.077

0 投票する

2 に答える

2303 参照

r - r の単語のステミングが期待どおりに機能しない

R に由来する非常に単純な単語を実行しようとしていて、非常に予期しないものを取得しています。以下のコードでは、'complete' 変数は 'NA' です。easy という単語の語幹を完成させられないのはなぜですか?

ありがとう！

r tm snowball

2015-04-08T15:18:45.797

0 投票する

2 に答える

560 参照

sphinx - libstemmer sphinx が動作しない

CentOs 6 を搭載した vagrant マシンに sphinx がインストールされており、Snowball からオランダ語の libstemmer をインストールしようとしています。インストールは正常に実行されましたが、テストはうまくいきません。

まったく同じデータで 2 つのインデックスを作成しました。私のインデックスは次のとおりです。

たとえば、オランダ語の「afzuigkappen」を検索すると、「afzuigkap」とまったく同じ結果が得られます

誰かがこの仕事を得る方法についての情報を教えてもらえますか? Ps。私の悪い英語でごめんなさい..

sphinx stemming snowball

2015-09-04T13:58:42.437

0 投票する

1 に答える

243 参照

java - Weka スノーボールが機能しない

Weka の機能を作成するために Weka を使用して、Weka でイタリア語のテキスト分類子を作成しようとしてStringToWordVectorいます。

分類器は問題なく動作しますが、フィルターのオプションとしてステマーを設定すると機能しません。これは私のコードです:

コンソールログでデバッグを開始すると表示されます

私も試してみsb.stem(string)ましたが、同じメッセージが表示され、結果の文字列が最初のものです。

どうすればそれを機能させることができますか？

java weka snowball

2015-10-08T15:05:55.817

0 投票する

1 に答える

47 参照

stemming - 2 つの試合の間にスノーボールを貪欲にする方法は?

完全に並行する必要がある 2 つのルーチンがあります。Snowball にそれらを実行させ、最も一致するものが選択されるようにします。

現在、私はそれらを使用して実行していorます。つまり、最初に実行し、失敗した場合は 2 番目を実行します。

両方のルーチンのテストを実行して、一致の長さを取得し、それを変数に格納してから、それらを比較し、最も一致するルーチンを実行することを考えました。

それを行うための標準的な指示またはより良い解決策はありますか?

擬似コード:

実際のコード

stemming snowball

2016-01-10T00:03:59.903

0 投票する

0 に答える

94 参照

postgresql - PostgreSQL の showball アルゴリズムがシノニムで機能しない

この構成のカスタム構成と同義語を作成しました。
ここに私のsynonym_custom.synファイルの内容があります

作成スクリプトは次のとおりです。

今、ベクトルを作成すると、単語の語彙が作成されませんgates

doorご覧のとおり、単語,doorsと,は変わりますが、ではありgateませんgates。代わりに、スノーボールアルゴリズムが機能しgates、 lexem が作成されましgateた。
シノニムスロースノーボールアルゴリズムの結果を postgresql に強制的に渡す方法。同義語辞書はスノーボールよりも優先されます。gate回避策として、単語のすべての変更をに追加できますが、synonym_custom.synこのような類義語を持つ単語が 3,500 あります。したがって、私の場合は解決策ではありません。

postgresql full-text-search config synonym snowball

2016-02-04T12:17:49.010

0 投票する

1 に答える

990 参照

java - Snowball Stemmer [Java]

現在、Java プロジェクトで Snowball Stemmer (Porter2) を使用して語幹処理を行っています。たとえば、online -> onlin、why -> whi、raise-> rais、appreciate -> appreci。

これらを回避する何らかの辞書を実装することにより、意味のある単語を取得したいのでtreating -> treat、この不要なステミングを防ぐ方法はありますか?単語が語幹処理されていますか? または、Snowball に似た他のステマーで、ステミング能力の精度が低い場合はありますか?records -> recorddevelopment -> develop

すべての助けをありがとう。

これが私の機能です。

java stemming porter-stemmer snowball

2016-02-15T17:37:41.310

1 2 3 4 5 6 7 8 9 10

問題タブ [snowball]

Reference