問題タブ [stop-words]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Javaでの単語の削除を停止します
外部ライブラリを使用したくありませんが、独自のストップワードの削除を開始する方法の手がかりがあるかどうか疑問に思います.HashSetを作成した後、テキストのストップワードを削除するためにどのように機能させることができますか?一度繰り返しますが、外部ライブラリを使用したくありません。
sql-server-2008 - SQL 2008: 全文検索クエリのストップ ワードをオフにする
これに対する適切な解決策を見つけるのにかなり苦労しています:
「名前」という列を持つ「会社」のテーブルがあるとしましょう。このコラムにはフルテキスト カタログがあります。ユーザーが「Very Good Company」を検索した場合、クエリは次のようになります。
問題はこの例にあります。「非常に」という単語が標準のストップワード リストに表示されます。
「Very Good Company」という名前の行があるにもかかわらず、クエリが行なしで返されます。
私の質問は、クエリのストップワードをオフにするにはどうすればよいですか? または、それらを完全に削除するにはどうすればよいですか?
または、この検索について別の方法がありますか?
string - matlab を使用してファイルからテキストを読み取り中に特定の単語をスキップする
テキストファイルでバイグラムとその頻度を見つけるためのmatlabプログラムを作成しました。この目的のために、textread 関数を使用して文字列のセル配列を作成しました。
unigrams = textread('file.txt','%s');
しかし、セル配列から「to」、「the」、「is」、「or」などの単語や特殊文字「#」、「$」、「&」、「%」も省略したいと考えています。 . 生ファイルから単語を読み取るときに、これらの単語を除外する方法はありますか。
ありがとう。
lucene - Lucene:ストリームをトークン化するときに空白などを保持する方法は?
ある種のテキストストリームの「翻訳」を実行しようとしています。具体的には、入力ストリームをトークン化し、専門辞書ですべての用語を検索し、トークンの対応する「翻訳」を出力する必要があります。ただし、出力が翻訳のストリームになるのではなく、入力と同じ方法でフォーマットされるように、入力からすべての元の空白、ストップワードなども保持したいと思います。だから私の入力が
Term1:Term2ストップワード!Term3 Term4
次に、出力を次のように表示します
Term1':Term2'ストップワード!Term3'Term4'
(Termi'はTermiの翻訳です)単にではなく
Term1'Term2' Term3'Term4'
現在、私は次のことを行っています。
しかし、これはもちろん、すべての空白などを失います。出力にそれらを再挿入できるようにこれを変更するにはどうすればよいですか?どうもありがとう!
============更新!
元のストリームを「単語」と「非単語」に分割してみました。うまくいくようです。ただし、それが最も効率的な方法かどうかはわかりません。
public ArrayList splitToWords(String sIn)
{
}
php - ストップワードを文字列に
文字列に悪い単語があることがわかったときに true を返す関数を PHP で作成したいと考えています。
次に例を示します。
$stopwords
variable は、次のような値の配列であると想定してください。
どうやってやるの?
ありがとう
php - ストップワード機能
配列に悪い単語の1つが見つかった場合にtrueを返すこの関数があります$stopwords
それはうまくいくようです。
問題は、配列$stopwords
が空の場合 (つまり、悪い単語が指定されていない)、空の値が悪い単語として認識され、常に true を返す場合のように、常に true を返すことです (問題はこれだと思いますが、別の問題かもしれません)。 )。
この問題を解決するのを手伝ってくれる人はいますか?
ありがとう
mysql - mysql ft_stopword_file を削除しても結果がない
Yes, We're Open という映画に関する情報を含む映画データベースがあります。
データベースを検索すると、「yes we're open」を検索すると、説明に「we're」と「open」が含まれているが「yes」が含まれていない別のタイトルが返されるという問題があります。すべての単語がブール モードである必要があります (つまり'+yes +we\'re +open'
、クエリとして送信される前に、"yes we\'re open" に変換されます)。
これは、組み込みのストップワード リストに「はい」が含まれているためだと思いました。ただし、設定ft_stopword_file = ""
してmysqlを再起動repair table [tablename] quick
し、検索しているテーブルを検索すると、「はい、開いています」の検索で結果が得られません。my.cnf を以下に含めました。これは MySQL バージョン 5.0.22 です。何か案は?
編集:ここにいくつかのサンプルクエリがあります:
#1 - 組み込みのストップワード ファイルを使用
.... 次に、my.cnf を編集し、ft_stopword_file=""
.....を追加します。
#2 ストップワードファイルなし
編集 #2: テーブルの作成:
python - Pythonを使用したストップワードの削除
全て、
クリーンアップする必要があるテキストがいくつかあり、「ほとんど」機能する小さなアルゴリズムがあります。
このページの最初の行を見てください。http://en.wikipedia.org/wiki/Paragraphに移動し、関心のないすべての文字を削除します。この場合、英数字以外のすべての文字です。
パラグラフ (ギリシャ語のパラグラフから、「横に書く」または「横に書かれる」) は、特定のポイントまたはアイデアを扱う書面での談話の自己完結型の単位です。段落は、1 つまたは複数の文で構成されます。[1][2] 段落の開始は、新しい行から始まることで示されます。最初の行がインデントされることがあります。さまざまな時点で、段落の開始はピルクロウによって示されてきました: ¶.
一部の単語が正しく再結合されておらず、それを修正する方法がわからないことを除いて、出力はかなり良さそうです。
ギリシア語のパラグラフからの段落は、横に書くか、横に書かれ、自己完結型の単位です。
「自己完結型」という言葉は「自己完結型」であることに注意してください。
編集:文字の束であるストップワードファイルの内容。
! $ % ^ , & * ( ) { } [ ] <
、 。/ | \ ? ~ `:; "
この場合は句読点である文字を実際に削除しようとしただけなので、単語のリストはまったく必要ないことがわかりました。
.htaccess - .htaccess は、URL がいくつかの単語と等しい/含まれている場合、書き換えをスキップします
私は次のような .htaccess を持っています:
しかし、URL にadmin、ドメイン名の直後に管理語 (例: domain.com/admin/ または domain.com/administration/)が含まれている場合は、これらのルールをスキップしたいと思います。
python - NLTKエラーで単語が表示されない
たとえば...私のword_listには...「愛は世界を一周させるものではありません。愛は乗り心地を価値あるものにするものです」
ストップワード以外のすべての単語を印刷したい...
しかし、それは愛、作る、行く、丸める、愛する、作る、価値があるだけを印刷します.......「世界、乗る」という言葉は印刷されません..誰もがそれを解決する方法を知っていますか?ありがとうございました...