“stop-words”の関連問題_Stack Overflow日本語サイト

0 投票する

3 に答える

6477 参照

java - Javaでの単語の削除を停止します

外部ライブラリを使用したくありませんが、独自のストップワードの削除を開始する方法の手がかりがあるかどうか疑問に思います.HashSetを作成した後、テキストのストップワードを削除するためにどのように機能させることができますか?一度繰り返しますが、外部ライブラリを使用したくありません。

java stop-words

2011-12-08T10:29:14.223

0 投票する

3 に答える

26434 参照

sql-server-2008 - SQL 2008: 全文検索クエリのストップワードをオフにする

これに対する適切な解決策を見つけるのにかなり苦労しています：

「名前」という列を持つ「会社」のテーブルがあるとしましょう。このコラムにはフルテキストカタログがあります。ユーザーが「Very Good Company」を検索した場合、クエリは次のようになります。

問題はこの例にあります。「非常に」という単語が標準のストップワードリストに表示されます。

「Very Good Company」という名前の行があるにもかかわらず、クエリが行なしで返されます。

私の質問は、クエリのストップワードをオフにするにはどうすればよいですか? または、それらを完全に削除するにはどうすればよいですか?

または、この検索について別の方法がありますか?

2011-12-08T18:13:26.800

0 投票する

1 に答える

1326 参照

string - matlab を使用してファイルからテキストを読み取り中に特定の単語をスキップする

テキストファイルでバイグラムとその頻度を見つけるためのmatlabプログラムを作成しました。この目的のために、textread 関数を使用して文字列のセル配列を作成しました。

unigrams = textread('file.txt','%s');

しかし、セル配列から「to」、「the」、「is」、「or」などの単語や特殊文字「#」、「$」、「&」、「%」も省略したいと考えています。 . 生ファイルから単語を読み取るときに、これらの単語を除外する方法はありますか。

ありがとう。

string matlab file-io stop-words

2011-12-29T18:25:01.570

0 投票する

1 に答える

1336 参照

lucene - Lucene：ストリームをトークン化するときに空白などを保持する方法は？

ある種のテキストストリームの「翻訳」を実行しようとしています。具体的には、入力ストリームをトークン化し、専門辞書ですべての用語を検索し、トークンの対応する「翻訳」を出力する必要があります。ただし、出力が翻訳のストリームになるのではなく、入力と同じ方法でフォーマットされるように、入力からすべての元の空白、ストップワードなども保持したいと思います。だから私の入力が

Term1：Term2ストップワード！Term3 Term4

次に、出力を次のように表示します

Term1'：Term2'ストップワード！Term3'Term4'

（Termi'はTermiの翻訳です）単にではなく

Term1'Term2' Term3'Term4'

現在、私は次のことを行っています。

しかし、これはもちろん、すべての空白などを失います。出力にそれらを再挿入できるようにこれを変更するにはどうすればよいですか？どうもありがとう！

============更新！

元のストリームを「単語」と「非単語」に分割してみました。うまくいくようです。ただし、それが最も効率的な方法かどうかはわかりません。

public ArrayList splitToWords(String sIn) {

}

lucene tokenize stop-words

2012-01-13T17:03:04.350

0 投票する

3 に答える

1193 参照

php - ストップワードを文字列に

文字列に悪い単語があることがわかったときに true を返す関数を PHP で作成したいと考えています。

次に例を示します。

$stopwordsvariable は、次のような値の配列であると想定してください。

どうやってやるの？

ありがとう

php stop-words

2012-02-04T21:48:10.057

0 投票する

4 に答える

1431 参照

php - ストップワード機能

配列に悪い単語の1つが見つかった場合にtrueを返すこの関数があります$stopwords

それはうまくいくようです。

問題は、配列$stopwordsが空の場合 (つまり、悪い単語が指定されていない)、空の値が悪い単語として認識され、常に true を返す場合のように、常に true を返すことです (問題はこれだと思いますが、別の問題かもしれません)。）。

この問題を解決するのを手伝ってくれる人はいますか?

ありがとう

php stop-words

2012-02-07T11:48:52.830

0 投票する

2 に答える

4672 参照

mysql - mysql ft_stopword_file を削除しても結果がない

Yes, We're Open という映画に関する情報を含む映画データベースがあります。

データベースを検索すると、「yes we're open」を検索すると、説明に「we're」と「open」が含まれているが「yes」が含まれていない別のタイトルが返されるという問題があります。すべての単語がブールモードである必要があります (つまり'+yes +we\'re +open'、クエリとして送信される前に、"yes we\'re open" に変換されます)。

これは、組み込みのストップワードリストに「はい」が含まれているためだと思いました。ただし、設定ft_stopword_file = ""してmysqlを再起動repair table [tablename] quickし、検索しているテーブルを検索すると、「はい、開いています」の検索で結果が得られません。my.cnf を以下に含めました。これは MySQL バージョン 5.0.22 です。何か案は？

編集:ここにいくつかのサンプルクエリがあります:

#1 - 組み込みのストップワードファイルを使用

.... 次に、my.cnf を編集し、ft_stopword_file="".....を追加します。

#2 ストップワードファイルなし

編集 #2: テーブルの作成:

mysql stop-words my.cnf

2012-02-15T20:12:11.710

0 投票する

3 に答える

1780 参照

python - Pythonを使用したストップワードの削除

全て、

クリーンアップする必要があるテキストがいくつかあり、「ほとんど」機能する小さなアルゴリズムがあります。

このページの最初の行を見てください。http://en.wikipedia.org/wiki/Paragraphに移動し、関心のないすべての文字を削除します。この場合、英数字以外のすべての文字です。

パラグラフ (ギリシャ語のパラグラフから、「横に書く」または「横に書かれる」) は、特定のポイントまたはアイデアを扱う書面での談話の自己完結型の単位です。段落は、1 つまたは複数の文で構成されます。[1][2] 段落の開始は、新しい行から始まることで示されます。最初の行がインデントされることがあります。さまざまな時点で、段落の開始はピルクロウによって示されてきました: ¶.

一部の単語が正しく再結合されておらず、それを修正する方法がわからないことを除いて、出力はかなり良さそうです。

ギリシア語のパラグラフからの段落は、横に書くか、横に書かれ、自己完結型の単位です。

「自己完結型」という言葉は「自己完結型」であることに注意してください。

編集:文字の束であるストップワードファイルの内容。

! $ % ^ , & * ( ) { } [ ] <

、。/ | \ ? ~ `:; "

この場合は句読点である文字を実際に削除しようとしただけなので、単語のリストはまったく必要ないことがわかりました。

python string stop-words

2012-02-22T19:36:50.050

0 投票する

1 に答える

2792 参照

.htaccess - .htaccess は、URL がいくつかの単語と等しい/含まれている場合、書き換えをスキップします

私は次のような .htaccess を持っています:

しかし、URL にadmin、ドメイン名の直後に管理語 (例: domain.com/admin/ または domain.com/administration/)が含まれている場合は、これらのルールをスキップしたいと思います。

.htaccess stop-words

2012-02-29T11:16:13.560

0 投票する

1 に答える

100 参照

python - NLTKエラーで単語が表示されない

たとえば...私のword_listには...「愛は世界を一周させるものではありません。愛は乗り心地を価値あるものにするものです」

ストップワード以外のすべての単語を印刷したい...

しかし、それは愛、作る、行く、丸める、愛する、作る、価値があるだけを印刷します.......「世界、乗る」という言葉は印刷されません..誰もがそれを解決する方法を知っていますか？ありがとうございました...

python nltk stop-words

2012-04-16T17:47:38.600

問題タブ [stop-words]

Reference