問題タブ [snowball]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
search - インデックスおよびクエリアナライザー用のSolrSnowballPorterFilterFactory
インデックスアナライザーとクエリアナライザーにはSnowballPorterFilterFactoryを使用しています。「職業」という言葉を検索すると。Solrは、「profession」を含む記事のみを正常に検索しますが、「professional」「professionalism」が必要です...
これはschema.xmlの現在の構成です
lucene - ElasticSearchで複数のステミング言語を使用する
私は、ユーザーがさまざまな国にいて、テキストコンテンツを投稿できるWebサイトの検索エンジンを構築しています。
私はそれを考慮します:-フランス語はフランス語と英語でコンテンツを生成します-ドイツ語はドイツ語と英語などでコンテンツを生成します...
異なるスノーボールステマー言語を同時に使用して検索できるかどうかを知りたいので、同時に適切な結果を得ることができます。
スノーボールステマー言語ごとに1つのインデックスを作成する必要がありますか?
そのような場合の既知のパターンはありますか?
ありがとう
.net - Lucene.Netで「Javaのみ」のアナライザーを使用できますか?
答えは「いいえ」だと思いました。しかし、Microsoft MVPSimoneChiarettaの興味深い言葉をいくつか見ました。
Directoy
インデックス構造はLuceneのすべてのポートと互換性があるため、.NETを使用してインデックスを作成し、Javaを使用して検索することもできます。または、その逆も可能です。
アナライザ
簡単に言うと、アナライザーには、テキストから索引語を抽出するためのポリシーが含まれています。.....そして、Javaバージョンには、まだ.netに移植されていないさらに多くのアナライザーがあります。
このことから、.NET以外の機能(Snowballアナライザーなど)を使用してインデックスを作成し、Lucene.Net駆動型アプリケーションで使用できるようになります。それは本当ですか?
elasticsearch - 保護された単語を含む ElasticSearch 語幹
eコマース衣料品Webサイトの検索機能にElasticSearch(Ruby、Tire経由)を使用しています。ステミング フィルターが必要ですが、ステミングされない保護された単語のリストを指定できる必要もあります。現在、ステミングにスノーボール フィルターを使用していますが、保護された単語を指定できるかどうかわかりません。他のステミング フィルターも調べました。
- Porter Stem はステミングで攻撃的すぎるようで、奇妙な混乱を引き起こしています
- KStem は英語のみのようで、これは多言語プロジェクト用です
- Stemmer は Snowball に似ているが、より機能が豊富であると主張していますが、それに関する適切なドキュメントが見つかりません
私の質問は次のとおりです。スノーボールでこれらの目標を達成する方法はありますか (もしそうなら、どのように?)、または他のステミング フィルターのいずれかに切り替える必要がありますか?
python - pystemmerに言語を追加する
pystemmer
で使用したいwhoosh
のですが、私の言語はサポートされていません。
私の言語(Snowball )用の2つのsnowballファイルを見つけ、ここでアドバイスされているように、それらから*.cファイルを作成しました。
ここで、pystemmerに*.cファイルを含めたいと思います。それらをソースに追加し、言語ファイルのリンク/リストを見つけたすべてのファイルを編集しましたが、(ソースから)pystemmerをインストールした後も、言語を使用できません-リストにありませんStemmer.algorithms()
。
私は何が間違っているのですか?
java - Javaのイタリア語ステミングライブラリ
イタリア語の単語の文字列をステミングするために、Javaライブラリまたは何かを検索しています。
目標は、イタリア語を比較することです。この瞬間、「attacco」、「attacchi」、「attaccare」などの単語は異なると見なされますが、代わりに真の比較を返したいと思います。
Lucene、snowball.tartarus.orgなどのようなものを見つけました。他に役立つものはありますか、それともJavaでどのように使用できますか?
回答ありがとうございます。
python - Python NLTK Snowball Stemmer UnicodeDecodeError は端末で、Eclipse PyDev ではありません
以下のコード スニペットに示すように、スノーボール ステマーを使用してドキュメント内の単語をステミングしています。
Eclipse で PyDev を使用してドキュメントに対してこれを実行すると、エラーは発生しません。ターミナル (Mac OSX) で実行すると、以下のエラーが表示されます。誰か助けてくれませんか?
java - JAR でエクスポートすると Weka と Snowball が機能しない
この問題は本当に頭がおかしくなり、
ほとんどの人が考えていることに答えるために: はい、snowball.jar をクラスパスに追加しました。
「going」から「go」への単語を抑止することになっている単純なメインクラスがあります。
最初にEclipseで実行すると動作し、次の出力が得られます。
ただし、Eclipse「stem.jar」から実行可能なjarとしてエクスポートし、ターミナル「java -jar stem.jar」で実行すると機能せず、次の出力が得られます。
エクスポートされた jar で snowball.jar が認識されない理由がわかりません...エクスポートされた jar には weka.jar と snowball.jar の両方が含まれていますが。以下は、stem.jar ファイルの構造です。
問題について何か助けていただければ幸いです
編集 1: 生成された ANT スクリプト:
編集2:
要求された MANIFEST.MF の内容は次のとおりです。
前もってありがとう、TeFa
r - R がパッケージ Snowball、rJava を読み込めない
R パッケージ「lsa」を実行しようとしていますが、これには Snowball が必要ですが、失敗します。最新の R パッチ ビルド (現在 3.01) で OpenSUSE 12.2 を実行しています。ここに問題があります:「sudo R」を実行してもライブラリは問題なくロードされますが、Rを良い方法で実行しようとすると、emacs ESSモードでsudoがなく、試行が失敗します。ここに私が見るものがあります:
これは、長い一連の rJava の問題の結論です。
sudo なしでこれを実行する方法についての提案 (sudo R の実行は、ESS モードの問題であることに加えて、ばかげているように思えます)
solr - アラビア語の SOLR Snowball Porter
Snowball Porter フィルターまたはアラビア語用の同様のフィルターはありますか?
<filter class="solr.SnowballPorterFilterFactory" language="English" />
アラビア語の複数の単語を単数の単語に正規化するために必要です