問題タブ [snowball]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
search - カスタムアナライザーelasticsearch soundex plus snowball
私にとっては次のように機能します(「testing」を検索すると、「test」を含むフィールドも返されます):
index :
analysis :
analyzer :
default :
type : snowball
language : english
elasticsearch.ymlファイルで設定した場合。
これをインストールしたsoundexと組み合わせたいので、これを試しました:
index :
analysis :
analyzer :
default :
type : custom
tokenizer : standard
filter : [standard, lowercase, soundex_filter, stemming]
filter :
soundex_filter :
type : phonetic
encoder : soundex
replace : true
stemming :
type : snowball
language : english
しかし成功せず、どれも機能していないようです (ステミングやサウンデックスはありません)
フィルターの組み合わせに成功した人はいますか?
r - r の単語のステミングが期待どおりに機能しない
R に由来する非常に単純な単語を実行しようとしていて、非常に予期しないものを取得しています。以下のコードでは、'complete' 変数は 'NA' です。easy という単語の語幹を完成させられないのはなぜですか?
ありがとう!
sphinx - libstemmer sphinx が動作しない
CentOs 6 を搭載した vagrant マシンに sphinx がインストールされており、Snowball からオランダ語の libstemmer をインストールしようとしています。インストールは正常に実行されましたが、テストはうまくいきません。
まったく同じデータで 2 つのインデックスを作成しました。私のインデックスは次のとおりです。
たとえば、オランダ語の「afzuigkappen」を検索すると、「afzuigkap」とまったく同じ結果が得られます
誰かがこの仕事を得る方法についての情報を教えてもらえますか? Ps。私の悪い英語でごめんなさい..
java - Weka スノーボールが機能しない
Weka の機能を作成するために Weka を使用して、Weka でイタリア語のテキスト分類子を作成しようとしてStringToWordVector
います。
分類器は問題なく動作しますが、フィルターのオプションとしてステマーを設定すると機能しません。これは私のコードです:
コンソールログでデバッグを開始すると表示されます
私も試してみsb.stem(string)
ましたが、同じメッセージが表示され、結果の文字列が最初のものです。
どうすればそれを機能させることができますか?
stemming - 2 つの試合の間にスノーボールを貪欲にする方法は?
完全に並行する必要がある 2 つのルーチンがあります。Snowball にそれらを実行させ、最も一致するものが選択されるようにします。
現在、私はそれらを使用して実行していor
ます。つまり、最初に実行し、失敗した場合は 2 番目を実行します。
両方のルーチンのテストを実行して、一致の長さを取得し、それを変数に格納してから、それらを比較し、最も一致するルーチンを実行することを考えました。
それを行うための標準的な指示またはより良い解決策はありますか?
擬似コード:
実際のコード
postgresql - PostgreSQL の showball アルゴリズムがシノニムで機能しない
この構成のカスタム構成と同義語を作成しました。
ここに私のsynonym_custom.syn
ファイルの内容があります
作成スクリプトは次のとおりです。
今、ベクトルを作成すると、単語の語彙が作成されませんgates
door
ご覧のとおり、単語,doors
と,は変わりますが、 ではありgate
ませんgates
。代わりに、スノーボール アルゴリズムが機能しgates
、 lexem が作成されましgate
た。
シノニム スロー スノーボール アルゴリズムの結果を postgresql に強制的に渡す方法。同義語辞書はスノーボールよりも優先されます。gate
回避策として、単語のすべての変更を に追加できますが、synonym_custom.syn
このような類義語を持つ単語が 3,500 あります。したがって、私の場合は解決策ではありません。
java - Snowball Stemmer [Java]
現在、Java プロジェクトで Snowball Stemmer (Porter2) を使用して語幹処理を行っています。たとえば、online -> onlin
、why -> whi
、raise-> rais
、appreciate -> appreci
。
これらを回避する何らかの辞書を実装することにより、意味のある単語を取得したいのでtreating -> treat
、この不要なステミングを防ぐ方法はありますか?単語が語幹処理されていますか? または、Snowball に似た他のステマーで、ステミング能力の精度が低い場合はありますか?records -> record
development -> develop
すべての助けをありがとう。
これが私の機能です。