問題タブ [snowball]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
377 参照

java - Snowball Stemmer を使用した IncompatibleClassChangeError

私はこの問題で 3 日間立ち往生しており、解決策が見つかりません。Weka 開発者版 (3.7.10) を使用して、NetBeans 7.3 で DM アプリケーションを開発しています。Snowball ステマーを使用しようとしていますが、次の方法でステマーを作成しているときにアプリケーションを実行している間、同じ例外が発生し続けます。

私が得る例外は次のとおりです。

私が言いたい最初のことはsnowball.jar、私のJavaプロジェクトにファイルが含まれているということです。最初の奇妙なことは、私が決して使用しないということweka.classifiers.JythonClassifierです。次に、Weka-7.3.10 を使用しており、このバージョンでJythonClassifierAbstractClassifier. JythonClassifier見つかったのは古いバージョンのようです。

このプロジェクトを始めたとき、Weka Stable Edition (3.6) を使い始めましたが、その後開発者版 (3.7) に移行しました。だから私はどこかに古い Weka ライブラリがあるかもしれないと思ったので、私は:

  1. Weka をアンインストールしました
  2. 削除されwekafilesたディレクトリ
  3. weka.jarディスクからファイルを削除しました
  4. Wekaを再度インストールしました

しかし、私はまだエラーが発生し続けます。

解決策をかなり長い間探していましたが、何も見つかりませんでした... のuseDynamicプロパティGenericPropertiesCreator.propsは に設定されていtrueます。

どんなアイデアにも本当に感謝しています.....私はそれらを使い果たしているので.

ありがとう!

0 投票する
1 に答える
577 参照

elasticsearch - ElasticSearch: スノーボールが機能しない?

私は以下を構築します:

... 次のように入力します。

... 検索すると次のように表示されます。

結果は

... greygreyed、およびの 3 つのヒットが予想されgreyingます。なぜこれが機能しないのですか?検索にあいまいさを追加することに興味がないことに注意してください。これは、デフォルトで灰色に一致するためです(ただし、灰色にはなりません)。

私がここで間違っていることは何ですか?

0 投票する
1 に答える
301 参照

linux - Linux で tm および Snowball パッケージ コマンドが遅い

テキストマイニング用に R で tm および Snowball パッケージを使用しています。最初は、8 GB のメモリを搭載した Windows 7 を搭載したラップトップで実行しました。後で、64 GB のメモリを搭載した Linux (Ubuntu) マシンで同じことを試しました。これらのマシンはどちらも 64 ビットで、64 ビット版の R も使用しています。ただし、Windows には R 3.0.0 があり、Linux には R 2.14 があります。

一部のコマンドは、Windows と比較して Linux では非常に低速です。

コーパスコマンド

Windows 上

これは、Windows マシンで 47 秒しかかかりませんでした

Linux の場合

これには Linux マシンで約220 秒かかりました

スノーボールステミング

Windows 上

これは、Windows マシンで12 秒しかかかりませんでした

Linux の場合

これには Linux マシンで約290 秒かかりました

Linux マシンでこれらのコマンドを高速化する方法はありますか? R のバージョンは、それほど大きな違いを生むでしょうか。ありがとうございました。

ラヴィ

0 投票する
1 に答える
808 参照

solr - オランダ語の StemmerOverrideFilterFactory および SnowballPorterFilterFactory を使用して Word が正しく分析されない

ソーラー: 3.5

やあ、

次の fieldType 定義に従って、オランダ語のフィールド タイプを作成しました。

stemdict_nl.txt は、 http: //snowball.tartarus.org/algorithms/kraaij_pohlmann/stemmer.html アルゴリズムに従って 45710 語の規則を使用しています。

ほとんどの検索クエリは正常に機能しているようで、ほとんど正しい提案が得られています。

ただし、「etiketje」で検索すると問題が発生します。私のルールによると:

「etiket」にフォールバックする必要があります。ただし、「etik」にフォールバックします。フィールドを分析すると、SOLR は次のように返します。

SOLR が「Etiketje」を次のように分析することを望みます。

うまくいけば、ここの誰かが私を正しい方向に向けることができます.

0 投票する
1 に答える
25498 参照

indexing - Elasticsearch : 特定のインデックスで使用される各アナライザーを一覧表示する方法

特定のインデックスでどのアナライザー (タイプ、言語など) が構成されているかを調べる必要があります。試しhttp://localhost:9200/wazzup/_mappingてみましたが、フィールド名/タイプに関する情報しか提供しません。

ありがとう

0 投票する
1 に答える
242 参照

ruby-on-rails - Snowball に elision フィルターを追加する

最初は、アナライザー「言語アナライザー」を使用していましたが、すべてがうまく機能しているように見えました。「a」がフランス語のストップワードのリストに含まれていないことに気付くまで

そこで、スノーボールでテストすることにしました。それもうまく機能しているように見えましたが、この場合、「 l' 」、「 d' 」などの短い単語が削除されます...

したがって、私の質問: スノーボールを使用し、デフォルトでフィルターを保持し、ストップワードと省略のリストを追加する方法は?

それ以外の場合、アナライザー「言語アナライザー」のストップワードのリストを変更するにはどうすればよいですか?

最後にもう 1 つ質問があります。「言語アナライザー」というアナライザーではなく、スノーボールを使用することに本当に関心があるのでしょうか。速いですか?より適切ですか?

ありがとうございました