問題タブ [snowball]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Snowball Stemmer を使用した IncompatibleClassChangeError
私はこの問題で 3 日間立ち往生しており、解決策が見つかりません。Weka 開発者版 (3.7.10) を使用して、NetBeans 7.3 で DM アプリケーションを開発しています。Snowball ステマーを使用しようとしていますが、次の方法でステマーを作成しているときにアプリケーションを実行している間、同じ例外が発生し続けます。
私が得る例外は次のとおりです。
私が言いたい最初のことはsnowball.jar
、私のJavaプロジェクトにファイルが含まれているということです。最初の奇妙なことは、私が決して使用しないということweka.classifiers.JythonClassifier
です。次に、Weka-7.3.10 を使用しており、このバージョンでJythonClassifier
はAbstractClassifier
. JythonClassifier
見つかったのは古いバージョンのようです。
このプロジェクトを始めたとき、Weka Stable Edition (3.6) を使い始めましたが、その後開発者版 (3.7) に移行しました。だから私はどこかに古い Weka ライブラリがあるかもしれないと思ったので、私は:
- Weka をアンインストールしました
- 削除され
wekafiles
たディレクトリ weka.jar
ディスクからファイルを削除しました- Wekaを再度インストールしました
しかし、私はまだエラーが発生し続けます。
解決策をかなり長い間探していましたが、何も見つかりませんでした... のuseDynamic
プロパティGenericPropertiesCreator.props
は に設定されていtrue
ます。
どんなアイデアにも本当に感謝しています.....私はそれらを使い果たしているので.
ありがとう!
elasticsearch - ElasticSearch: スノーボールが機能しない?
私は以下を構築します:
... 次のように入力します。
... 検索すると次のように表示されます。
結果は
... grey
、greyed
、およびの 3 つのヒットが予想されgreying
ます。なぜこれが機能しないのですか?検索にあいまいさを追加することに興味がないことに注意してください。これは、デフォルトで灰色に一致するためです(ただし、灰色にはなりません)。
私がここで間違っていることは何ですか?
linux - Linux で tm および Snowball パッケージ コマンドが遅い
テキストマイニング用に R で tm および Snowball パッケージを使用しています。最初は、8 GB のメモリを搭載した Windows 7 を搭載したラップトップで実行しました。後で、64 GB のメモリを搭載した Linux (Ubuntu) マシンで同じことを試しました。これらのマシンはどちらも 64 ビットで、64 ビット版の R も使用しています。ただし、Windows には R 3.0.0 があり、Linux には R 2.14 があります。
一部のコマンドは、Windows と比較して Linux では非常に低速です。
コーパスコマンド
Windows 上
これは、Windows マシンで 47 秒しかかかりませんでした
Linux の場合
これには Linux マシンで約220 秒かかりました
スノーボールステミング
Windows 上
これは、Windows マシンで12 秒しかかかりませんでした
Linux の場合
これには Linux マシンで約290 秒かかりました
Linux マシンでこれらのコマンドを高速化する方法はありますか? R のバージョンは、それほど大きな違いを生むでしょうか。ありがとうございました。
ラヴィ
solr - オランダ語の StemmerOverrideFilterFactory および SnowballPorterFilterFactory を使用して Word が正しく分析されない
ソーラー: 3.5
やあ、
次の fieldType 定義に従って、オランダ語のフィールド タイプを作成しました。
stemdict_nl.txt は、 http: //snowball.tartarus.org/algorithms/kraaij_pohlmann/stemmer.html アルゴリズムに従って 45710 語の規則を使用しています。
ほとんどの検索クエリは正常に機能しているようで、ほとんど正しい提案が得られています。
ただし、「etiketje」で検索すると問題が発生します。私のルールによると:
「etiket」にフォールバックする必要があります。ただし、「etik」にフォールバックします。フィールドを分析すると、SOLR は次のように返します。
SOLR が「Etiketje」を次のように分析することを望みます。
うまくいけば、ここの誰かが私を正しい方向に向けることができます.
indexing - Elasticsearch : 特定のインデックスで使用される各アナライザーを一覧表示する方法
特定のインデックスでどのアナライザー (タイプ、言語など) が構成されているかを調べる必要があります。試しhttp://localhost:9200/wazzup/_mapping
てみましたが、フィールド名/タイプに関する情報しか提供しません。
ありがとう
ruby-on-rails - Snowball に elision フィルターを追加する
最初は、アナライザー「言語アナライザー」を使用していましたが、すべてがうまく機能しているように見えました。「a」がフランス語のストップワードのリストに含まれていないことに気付くまで
そこで、スノーボールでテストすることにしました。それもうまく機能しているように見えましたが、この場合、「 l' 」、「 d' 」などの短い単語が削除されます...
したがって、私の質問: スノーボールを使用し、デフォルトでフィルターを保持し、ストップワードと省略のリストを追加する方法は?
それ以外の場合、アナライザー「言語アナライザー」のストップワードのリストを変更するにはどうすればよいですか?
最後にもう 1 つ質問があります。「言語アナライザー」というアナライザーではなく、スノーボールを使用することに本当に関心があるのでしょうか。速いですか?より適切ですか?
ありがとうございました