問題タブ [stemming]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Tokenizer、Stop Word の削除、Java でのステミング
何百もの単語の長い文字列を取り、IR システムで使用するためにストップ ワードと語幹を削除してトークン化するクラスまたはメソッドを探しています。
例えば:
「でっかい太った猫が、カンガルーに『君の一番おかしなやつ』って言った…」
トークナイザーは句読点を削除し、単語の を返しArrayList
ます
ストップワードリムーバーは、「the」、「to」などの単語を削除します
ステマーは各単語を「ルート」に減らします。たとえば、「おかしな」はおかしくなります
よろしくお願いします。
algorithm - テキストから重要な文を抽出する
頻度パラメータなどを使ってテキストから重要な文を抽出する効果的な方法を知っていますか?それは「ステミング」(同様の文も検索)も実行できますか?
ソフトウェアの実装もあるのかな?
どうもありがとう
mysql - ステム付きの MySQL フルテキスト
私は自分のサイトに小さな検索機能を構築しています。ユーザーのクエリを取得し、キーワードをステミングしてから、ステミングされたキーワードに対してフルテキストの MySQL 検索を実行しています。
問題は、MySQL がステムをリテラルとして扱っていることです。起こっているプロセスは次のとおりです。
- ユーザーが「野球」などの単語を検索する
- 私のステミング アルゴリズム (Porter Stemmer) は、「野球」を「野球」に変換します。
- "baseball" と "baseballs" の一致が存在する必要がありますが、fulltext で "basebal" に一致するものは見つかりません。
フルテキストで LIKE 'basebal%' に相当することを行うにはどうすればよいですか?
編集:
これが私の現在のクエリです:
solr - Solr は、シノニムとステミングが使用されたときに使用された実際の最終クエリを返すことができますか?
solr が最終的なクエリを実行するために使用したクエリ用語を UI に表示できるようにしたいと考えています。たとえば、クエリ「run」を入力しても、バックグラウンドで solr はステミングを使用して「ran」と「running」のクエリも実行します。また、「run = sprint」を含む同義語が定義されている場合もあります。
「run」と入力したにもかかわらず、実際のクエリは「run run running sprint」だったことをユーザーに示したいと思います。
これを行う簡単な方法はありますか?
ありがとう!
python - Pythonでのストップワードの削除とステマー
私はやや大きなドキュメントを持っており、Pythonを使用してこのドキュメントの単語をストップワード除去およびステミングしたいと考えています。誰かがこれらの棚パッケージを知っていますか?そうでない場合は、大きなドキュメントに十分な速度のコードも歓迎します。ありがとう
php - PHP の Schinke ラテン語ステミング アルゴリズム
この Web サイトでは、 Snowballステミング システムで使用するためのダウンロード用の「Schinke Latin ステミング アルゴリズム」を提供しています。
このアルゴリズムを使用したいのですが、Snowball は使用したくありません。
良い点:そのページには、PHP 関数に変換できる疑似コードがいくつかあります。これは私が試したことです:
私の質問:
1) このコードは正しく動作しますか? アルゴリズムのルールに従っていますか?
2) コード (パフォーマンス) をどのように改善できますか?
事前にどうもありがとうございました!
nlp - インド語で使用できるステマーはありますか
(ヒンディー語、テルグ語) などのインド語のステマーの実装はありますか?
java - 単語ベース/語幹辞書
私のGoogle-fuが私を失敗させているようです。
単語のベースだけを含む、無料で入手できる単語ベースの辞書を知っている人はいますか? つまり、イチゴのようなものはイチゴになります。しかし、略語、スペルミス、または別のスペル (UK と US など) が含まれていませんか? Java ですぐに使用できるものであれば何でもよいのですが、マッピングのテキスト ファイルまたは読み取り可能なものであれば何でも役に立ちます。
sql - SQL 単語のルート マッチング
主要な SQL エンジン (MS SQL、Oracle、MySQL) が、同じ語根を共有しているため、2 つの単語が関連していることを理解できるかどうか疑問に思っています。
後者は前者の部分文字列であるため、「network」を検索する場合、「networking」が一致しやすいことがわかっています。
しかし、「ネットワーキング」を検索するときに「ネットワーク」に一致する機能を SQL エンジンは持っているのでしょうか。
どうもありがとう。
c# - C# または Ruby でテキストを処理するためのインデックス ステミング
このテキストを考えると:
「フレンズとは、友好的で友好的な分類クラスを分類する友好的な友好的なものです。花のような花は、花の流れに沿って流れます」
次の結果を得るには、テキストにステミングを適用する必要があります。
FAST検索エンジンとのインターフェースとして。FAST はコンテンツにインデックスを付けて、関連する検索結果をクエリに提供します。インデックス作成の 1 つの側面はステミングであり、これを解決するには C# または Ruby を使用する必要があります。
最善のアプローチについての意見をいただければ幸いです