問題タブ [stop-words]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - 検索クエリの一般的な単語を除外する
クエリで意味のあるデータを抽出することにより、ユーザーの入力 (おそらく質問) をフィルタリングする簡単な方法はありますか?
私は基本的にノイズ ワードを除外して、「クリーンな」クエリを Google の検索 API に送信できるようにしたいと考えています。
mysql - MYSQLでストップワードをリセットするには?
FULLTEXT検索のmysqlでストップワードリストをリセットしたい。mysql にアクセスするための phpmyadmin を持つシステムに WAMP サーバーをインストールしました。しかし、phpmyadminでストップワードをリセットする方法がわかりません。誰でもその方法を教えてください。
私もhttp://dev.mysql.com/doc/refman/5.1/en/server-system-variables.html#sysvar_ft_stopword_fileこのリンクを読みましたが、これを使用する方法がわかりません???
search - ストップワードを使用した Xapian 多言語検索?
私は 2 つの Xapian データベースを持っています。一方を「EN」と呼び、もう一方を「DE」と呼びましょう。前者には英語のドキュメントが含まれており、後者にはドイツ語のドキュメントが含まれているとします。
ユーザーが両方を同時に検索できるようにするには、両方のデータベースを簡単にロードできます。しかし、1 つのステマーとストップ ワードのセットしか使用できないようです。
英語のステマーをインスタンス化して、"EN" データベースからの結果だけに適用する方法はありませんか? 英単語でストッパーを作成する方法はなく、「EN」データベースからの結果のみに適用されますか?
これは正しいでしょうか?
language-agnostic - 英語の「ストップワード」リスト?
いくつかの英語のテキストの統計を生成していますが、"a" や "the" などの興味のない単語をスキップしたいと考えています。
- これらの面白くない単語のリストはどこにありますか?
- これらの単語のリストは、英語で最も頻繁に使用される単語のリストと同じですか?
更新: これらは明らかに「ストップ ワード」と呼ばれ、「スキップ ワード」ではありません。
sql-server-2005 - SQl Server 2005 の全文検索のクエリ ノイズ/ストップ ワード
データベースにクエリを実行して、SQL Server 2005 から全文検索のノイズ/ストップ ワードのリストを取得することはできますか?
ノイズ ワードがテキスト ファイル ~/FTData/noiseEng.txt にあることは承知していますが、このファイルにはアプリケーションからアクセスできません。
sys.fulltext_* テーブルを見てきましたが、これらには単語がないようです。
hebrew - ヘブライ語のストップワードのリストはどこにありますか?
ヘブライ語のストップワードのリストはどこにありますか?
java - Tokenizer、Stop Word の削除、Java でのステミング
何百もの単語の長い文字列を取り、IR システムで使用するためにストップ ワードと語幹を削除してトークン化するクラスまたはメソッドを探しています。
例えば:
「でっかい太った猫が、カンガルーに『君の一番おかしなやつ』って言った…」
トークナイザーは句読点を削除し、単語の を返しArrayList
ます
ストップワードリムーバーは、「the」、「to」などの単語を削除します
ステマーは各単語を「ルート」に減らします。たとえば、「おかしな」はおかしくなります
よろしくお願いします。
sql-server - 全文検索:ノイズワードを検索中
全文検索インデックスを持つ SQL Server 2008 にデータベースがあります。ストップリストでストップワード「al」を定義しました。ただし、キーワード「al」を使用して任意のフレーズを検索すると、「al」という単語は依然としてランキングに使用されます。
これは、検索用語を分解して再構築しているという事実に関連している可能性があります。次に、複数のフィールドを検索して結果をランク付けしています: http://pastebin.com/fdce11ff。これは検索を分割する機能です
の中へ
全文検索用。
次のシナリオを想像してください。
名前:アル・ハムラ、作者:ジャック・ブラウン、ジャンル:フィクション・アル・カラワン、作者:アル・ハンツ、ジャンル:ロマンス
これで、「al hamra」を検索すると、 「al」がストップリストにあるにもかかわらず、「Al Karawan」が返されます。どうしてこれなの?ストップリストが単語の重みを失うと思いましたか?
ruby - Sphinx インデックスでアポストロフィを無視する
私のスフィンクス構成ファイルには、次のものがあります。
(charset_table エントリはここから: http://speeple.com/unicode-maps.txt )
インデックスから ' (一重引用符/apos) を除外するように sphinx に指示しているため (ab'cd -> abcd) 、クエリを実行すると and/orにkyles
一致するすべてのレコードが返されることが予想されます。ただし、実際には、これは起こりません。kyles
kyle's
mysql - MySQLフルテキストストップワードの理論的根拠
私は現在、自分のWebサイトの基本的な全文検索を開発しようとしていますが、「よろしく」などの特定の単語がMySQL全文検索のストップワードとしてリストされていることに気付きました。特定のニュースアイテムを検索する人は必ずしも「よろしく」という単語を使用して検索するとは限らないので、これは今のところあまり気になりません(しかし、私は確かにすべての人に話すことはできません!)。しかし、私はここの誰かがストップワードリストを持つ理由について私に教えてくれることを望んでいました。ありがとう!
明確にするために: フルテキストテーブルにMyIsamを使用しています。ストップワードは、MySQLがインデックス付けしない単語です(フルテキストインデックスの場合)。この質問へのコメントに記載されているように、説明のないストップワードの完全なリストがあります。「彼ら」が選んだ言葉の背後に論理的根拠があったかどうかを知りたいだけです。