問題タブ [stop-words]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - PHP と MYSQL を使用した検索で「THE」を省略する方法
プロジェクトの「アルファベット順検索」モジュールを実行しています。
つまり、次のようになります
ABCDEF . . . . . . . . . .. . . . . . . .. . . . Z
「 A 」をクリックすると、結果は「 A」でソートされます。これはすべてのアルファベットで同じです。
今、私の問題は次のとおりです。
たとえば、「The Mummy」という映画があります。
「 ALPHABET T 」をクリックすると、この対応するフィルムがソートされます。
しかし、私のクライアント要件は、ユーザーが「T」ではなく「M」をクリックしたときに「The Mummy」ムービーをソートする必要があるということです。
「a 、an、the」は「ARTICLES」であり、意味はありません。
私の問題が何であるかを誰もが理解できることを願っています....
どんな助けでも、かなりの価値があり、感謝しています。
前もって感謝します
string - 文字列から単語のリストを削除する方法
私がやりたいこと(Clojureで):
たとえば、削除する必要のある単語のベクトルがあります。
...そして文字列のベクトル:
したがって、禁止されている各単語を各文字列から削除する必要があります。この場合、結果は["movie list""thisisastring""haha"]になります。
これを行う方法 ?
nlp - 面白くない単語のリスト
[警告]これは直接プログラミングの質問ではありませんが、言語処理で頻繁に出てくるものなので、コミュニティに役立つと確信しています。
カジュアルな見た目以上にテストされた面白くない(英語の)単語の良いリストを持っている人はいますか?これには、すべての前置詞、接続詞などが含まれます。意味的な意味を持つ可能性がありますが、主語に関係なく、すべての文で頻繁に使用される単語です。私は個人的なプロジェクトのために時々自分のリストを作成しましたが、それらはその場限りのものでした。忘れてしまった言葉をどんどん追加していきます。
mysql - ストップワードを考慮しない完全な検索インデックスクエリを作成するにはどうすればよいですか?
mysqlテーブルの全文検索インデックスを使用して全文検索を実行するクエリを作成しました。
しかし、私の問題は、ユーザーが「to go」で検索すると、mysqlのストップワードのために何も検索されないことです。
だから私の質問は、ストップワードを無視する完全検索クエリをどのように書くことができるかということです。
full-text-search - Oracle 全文検索の「ストップ」ワードのリストはどこにありますか?
新しいOracle UCMサイトでクライアントが全文検索(以下の例)をテストしています。彼らがテストするために選んだランダムなテキスト文字列は「テストのみ」でした。どちらが失敗しましたか。私のテストでは、全文検索から返されることはありません(メタデータ検索から返される)ため、「のみ」は予約語のようです。
私は午前中にoracle.comを検索しましたが、これはかなり包括的であることがわかりましたが、「のみ」はありません。
したがって、私の質問は、「のみ」は予約語です。Oracle 全文検索 (10g) の予約語の完全なリストはどこにありますか?
全文検索文字列の例。
アップデート。 さらにいくつかのテストを行いました。場所や時間を示す単語を無視しているようです。のみ、一部、まで、いつ、その間、どこ、そこ、ここ、近く、それ、誰、約、これ、それら。
誰でもこれを確認できますか?これは Oracle のどこにもありません。
更新 2. 回答の投稿 「予約済み」ではなく「停止」語を探していたはずです。質問のタイトルとタグを反映するように更新しました。
php - php を使用したテキストで最もよく使用される単語
以下のコードは、stackoverflow で見つけたもので、文字列内の最も一般的な単語を見つけるのにうまく機能します。しかし、「a、if、you、have など」のような一般的な単語を数えることを除外できますか? または、数えた後に要素を削除する必要がありますか? どうすればいいですか?前もって感謝します。
java - Javaでストップワードを削除する
約 30 の単語と一連の記事を含むストップ ワードのリストがあります。
各記事を解析して、それらのストップ ワードを削除したいと考えています。
それを行う最も効率的な方法が何であるかはわかりません。
たとえば、停止リストをループして、記事内の単語が存在する場合は空白で置き換えることができますが、うまくいきません。
ありがとう
solr - ストップワードなしでSolrをソートする方法
ストップワードを無視してフィールドでSolrクエリを並べ替えようとしていますが、その方法が見つからないようです。たとえば、結果を次のように並べ替えたいとします。
- チャーリー
- キツネ
- ヘリコプター
これは可能ですか?現在、フィールドタイプは次のように定義されています。
そして、フィールドは次のように追加されます。
他の誰かもこれをしなければならなかったようですか?それとも、ストップワードなしでソートするのはノーノーですか?
python - 文字列のリストから単語のリストを削除する方法
質問が少し紛らわしい場合は申し訳ありません。これはこの質問に似ています
上記の質問は私が望むものに近いと思いますが、Clojureでは。
別の質問があります
このようなものが必要ですが、その質問の「[br]」の代わりに、検索して削除する必要のある文字列のリストがあります。
私が自分自身を明確にしたことを願っています。
これは、Pythonの文字列が不変であるためだと思います。
文字列のリストから削除する必要のあるノイズワードのリストがあります。
リスト内包表記を使用すると、同じ文字列を何度も検索することになります。したがって、「of」のみが削除され、「the」は削除されません。だから私の変更されたリストはこのようになります
私がしている間違いについて知りたいのですが。