問題タブ [stop-words]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sql-server - Sql Server 2008 - システム ストップ リストから単語を削除しますか?
ストップ ワード リストから「-」文字を削除しようとしていますが、削除できません。システム ストップ リストを継承するカスタム ストップ リストを作成しました。ストップ リストから「-」を削除しようとすると、SQL Server はその文字がストップ リストにないことを通知します。これは私が使用しているSQLステートメントです:
また、システムから継承しない停止リストを作成しようとしましたが、これも機能しません。もちろん、変更のたびにカタログを再作成します。
私はSQLサーバーが何らかの形でシステムストップリストも使用していると思いますが、システムストップリストから文字を削除する方法がわかりません。
私が必要としているのは、「blablabla-blablala」のような文字列 (「-」文字を使用するポルトガル語の単語がいくつかあります) は、次のようなクエリを実行した場合にのみ検出されることです。
そして、次のようなクエリを実行しても見つかりません。
何か案は?
python - タグなしのコーパスをタグ付き (NLTK) に変換する
タグ付けして保存したい平文のコーパスがあるので、それをさらに使用できます。これを行う最善の方法は何ですか?
タガーは既に作成していますが、乱雑ではないコーパスを変更する方法がわかりません。
sql-server - Sql Server 2008 はフルテキスト フレーズ クエリのノイズ ワードを無視していませんか?
フルテキスト フィールドを持つテーブルがあるとします。このフィールドは と呼ばれtext
ます。テーブルの内容は次のようになります。
言葉and
は私の中にあるstoplist
ここで、次の sql を使用してこのテーブルにクエリを実行します。
このクエリは、car wash
行ではなく行のみを返しますcar and wash
。単語がストップ ワードであると仮定すると、 SQL が行and
を返さないのはなぜですか?car and wash
私はフレーズ検索を行っていることを知っています ("" を使用)。それはまさに私が必要としているものですが、Sql はストップ リスト内の単語を無視する必要があり、それは起こっていることではないと思います。それは私を夢中にさせています。
私の理解では、FT アルゴリズムがそのようなフレーズを見つけると、car and wash
インデックスのみが作成されcar
、wash
. これは本当ですか?
また、クエリを実行するft_parser
と、期待どおりの内容が表示されます。
何かご意見は?
java - Java でストップ ワードを削除する --- ヘルプが必要
ファイルで定義されたストップワードを削除するメソッドを使用しています。これにより、このメソッドに渡すクエリ文字列からそれらの単語が切り取られます...コードは正常に動作しています
今私がする必要があるのは...クエリ文字列にそれらのストップワードだけが含まれている場合、それは取り除かれるべきではありません..
例: ストップワード ファイルに「is」「was」「and」がある場合
クエリが「私は学生でした」の場合、出力は「私は学生です」となるはずです
しかし、クエリが「and is」の場合、「and is」と同じ出力が必要です。
以下は、ストップワードを削除するために私が書いた方法です。
postgresql - PostgreSQLで動的に辞書を作成することは可能ですか?
私はPostgreSQLでの全文検索に不慣れで、辞書やストップワードなどを発見しました。
私は多くのテキストからのたくさんの単語を含むテーブルを持っています。独自の辞書を作成し、最初の30個の最も頻繁な単語をストップワードとして配置したいと思います。
実行時にこれを行うことは可能ですか?
linux - grep を使用してストップワード ファイルから単語を除外する
grep を stopwords-file と一緒に使用して、別のファイルから一般的な英語の単語を除外したいと考えています。ファイル「somefile」には、1 行に 1 単語が含まれています。
このアプローチの問題点は次のとおりです。ストップワードの単語が somefile に含まれているかどうかをチェックしますが、反対のファイルが必要です。つまり、somefile の単語がストップワードに含まれているかどうかを確認します。
これを行う方法?
例
somefile には以下が含まれます。
ストップワードには次のものが含まれます。
こんにちはとオレンジではなく、somefile から「o」という単語だけを除外したいと考えています。
search - ブログ投稿やニュース記事などのテキストを自動タグ付けするソフトウェア?
以下のようなソフトを探しています。
- 100 ~ 1,000 語のさまざまな多数の記事を処理します。
- ストップワードを自動的に削除します。
- 残りの単語に基づいて最適なタグをお勧めします。つまり、この記事はすべて「車、トランスミッション、日本」に関するものです。
私にとって、これは Google の内部キーワード サマリー ツールのようなものです。何か案が?Ferret のようなオープンソースの全文検索ツールは、実行可能な選択肢になるでしょうか? しかし、私は商用ソフトウェア ツールに対しても完全にオープンです。
lucene - 一般的な英語の単語戦略を削除します
HTMLページから関連するキーワードを抽出したい。
私はすでにすべてのhtmlを削除し、テキストを単語に分割し、ステマーを使用して、ストップワードリストに表示されるすべての単語をluceneから削除しました。
しかし今でも、最も一般的な単語として、基本的な動詞や代名詞がたくさんあります。
luceneやsnowballなど、「I、is、go、goed、am、it、was、we、you、us、...」のようなものをすべて除外する方法や単語のセットはありますか?
c# - C#でトークン化とストップワードの削除を実行する方法は?
基本的に、段落の各単語をトークン化してから、ストップワードの削除を実行します。これは私のアルゴリズムの前処理されたデータになります。
search - フレーズにストップワードが含まれている場合、solrで結果を停止するにはどうすればよいですか?
Solrでストップワードのあるフレーズを検索しているときに問題が発生しました。Solrはストップワードで結果を送信しますが、これは私の期待する出力ではありません。
stopwords.txt
ファイルに「test」という単語を追加しました。schema.xml
ファイルには、次のようなフィールドがあります
いくつかのデータにインデックスを付けてから、次のようにSolrブラウザーウィンドウで検索しようとしました:searchword: "test"、そして結果が得られませんでした。それからまた、searchwordのようなフレーズを与えました:「テストデータ」そして私は結果を得ました。そのようなシナリオを回避する方法は?ストップワードが含まれている場合、Solrは結果を出さないはずです。フレーズにストップワードが含まれている場合、solrで結果を停止するにはどうすればよいですか?
以下は、私が使用しているfieldTypeです。
ストップワードを含むフレーズを指定している間、Solrが結果を提供しないための解決策が必要です(テスト)