問題タブ [snowball]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
6707 参照

search - インデックスおよびクエリアナライザー用のSolrSnowballPorterFilterFactory

インデックスアナライザーとクエリアナライザーにはSnowballPorterFilterFactoryを使用しています。「職業」という言葉を検索すると。Solrは、「profession」を含む記事のみを正常に検索しますが、「professional」「professionalism」が必要です...

これはschema.xmlの現在の構成です

0 投票する
5 に答える
2959 参照

lucene - ElasticSearchで複数のステミング言語を使用する

私は、ユーザーがさまざまな国にいて、テキストコンテンツを投稿できるWebサイトの検索エンジンを構築しています。

私はそれを考慮します:-フランス語はフランス語と英語でコンテンツを生成します-ドイツ語はドイツ語と英語などでコンテンツを生成します...

異なるスノーボールステマー言語を同時に使用して検索できるかどうかを知りたいので、同時に適切な結果を得ることができます。

スノーボールステマー言語ごとに1つのインデックスを作成する必要がありますか?

そのような場合の既知のパターンはありますか?

ありがとう

0 投票する
1 に答える
83 参照

.net - Lucene.Netで「Javaのみ」のアナライザーを使用できますか?

答えは「いいえ」だと思いました。しかし、Microsoft MVPSimoneChiarettaの興味深い言葉をいくつか見ました。

Directoy

インデックス構造はLuceneのすべてのポートと互換性があるため、.NETを使用してインデックスを作成し、Javaを使用して検索することもできます。または、その逆も可能です。

アナライザ

簡単に言うと、アナライザーには、テキストから索引語を抽出するためのポリシーが含まれています。.....そして、Javaバージョンには、まだ.netに移植されていないさらに多くのアナライザーがあります。

このことから、.NET以外の機能(Snowballアナライザーなど)を使用してインデックスを作成し、Lucene.Net駆動型アプリケーションで使用できるようになります。それは本当ですか?

0 投票する
1 に答える
943 参照

elasticsearch - 保護された単語を含む ElasticSearch 語幹

eコマース衣料品Webサイトの検索機能にElasticSearch(Ruby、Tire経由)を使用しています。ステミング フィルターが必要ですが、ステミングされない保護された単語のリストを指定できる必要もあります。現在、ステミングにスノーボール フィルターを使用していますが、保護された単語を指定できるかどうかわかりません。他のステミング フィルターも調べました。

  • Porter Stem はステミングで攻撃的すぎるようで、奇妙な混乱を引き起こしています
  • KStem は英語のみのようで、これは多言語プロジェクト用です
  • Stemmer は Snowball に似ているが、より機能が豊富であると主張していますが、それに関する適切なドキュメントが見つかりません

私の質問は次のとおりです。スノーボールでこれらの目標を達成する方法はありますか (もしそうなら、どのように?)、または他のステミング フィルターのいずれかに切り替える必要がありますか?

0 投票する
0 に答える
717 参照

python - pystemmerに言語を追加する

pystemmerで使用したいwhooshのですが、私の言語はサポートされていません。

私の言語(Snowball )用の2つのsnowballファイルを見つけ、ここでアドバイスされているように、それらから*.cファイルを作成しました。

ここで、pystemmerに*.cファイルを含めたいと思います。それらをソースに追加し、言語ファイルのリンク/リストを見つけたすべてのファイルを編集しましたが、(ソースから)pystemmerをインストールした後も、言語を使用できません-リストにありませんStemmer.algorithms()

私は何が間違っているのですか?

0 投票する
1 に答える
2101 参照

java - Javaのイタリア語ステミングライブラリ

イタリア語の単語の文字列をステミングするために、Javaライブラリまたは何かを検索しています。

目標は、イタリア語を比較することです。この瞬間、「attacco」、「attacchi」、「attaccare」などの単語は異なると見なされますが、代わりに真の比較を返したいと思います。

Lucene、snowball.tartarus.orgなどのようなものを見つけました。他に役立つものはありますか、それともJavaでどのように使用できますか?

回答ありがとうございます。

0 投票する
2 に答える
2343 参照

python - Python NLTK Snowball Stemmer UnicodeDecodeError は端末で、Eclipse PyDev ではありません

以下のコード スニペットに示すように、スノーボール ステマーを使用してドキュメント内の単語をステミングしています。

Eclipse で PyDev を使用してドキュメントに対してこれを実行すると、エラーは発生しません。ターミナル (Mac OSX) で実行すると、以下のエラーが表示されます。誰か助けてくれませんか?

0 投票する
4 に答える
1535 参照

java - JAR でエクスポートすると Weka と Snowball が機能しない

この問題は本当に頭がおかしくなり、

ほとんどの人が考えていることに答えるために: はい、snowball.jar をクラスパスに追加しました。

「going」から「go」への単語を抑止することになっている単純なメインクラスがあります。

最初にEclipseで実行すると動作し、次の出力が得られます。

ただし、Eclipse「stem.jar」から実行可能なjarとしてエクスポートし、ターミナル「java -jar stem.jar」で実行すると機能せず、次の出力が得られます。

エクスポートされた jar で snowball.jar が認識されない理由がわかりません...エクスポートされた jar には weka.jar と snowball.jar の両方が含まれていますが。以下は、stem.jar ファイルの構造です。

問題について何か助けていただければ幸いです

編集 1: 生成された ANT スクリプト:

編集2:

要求された MANIFEST.MF の内容は次のとおりです。

前もってありがとう、TeFa

0 投票する
0 に答える
2002 参照

r - R がパッケージ Snowball、rJava を読み込めない

R パッケージ「lsa」を実行しようとしていますが、これには Snowball が必要ですが、失敗します。最新の R パッチ ビルド (現在 3.01) で OpenSUSE 12.2 を実行しています。ここに問題があります:「sudo R」を実行してもライブラリは問題なくロードされますが、Rを良い方法で実行しようとすると、emacs ESSモードでsudoがなく、試行が失敗します。ここに私が見るものがあります:

これは、長い一連の rJava の問題の結論です。

sudo なしでこれを実行する方法についての提案 (sudo R の実行は、ESS モードの問題であることに加えて、ばかげているように思えます)

0 投票する
1 に答える
297 参照

solr - アラビア語の SOLR Snowball Porter

Snowball Porter フィルターまたはアラビア語用の同様のフィルターはありますか?

<filter class="solr.SnowballPorterFilterFactory" language="English" />

アラビア語の複数の単語を単数の単語に正規化するために必要です