“stop-words”の関連問題_Stack Overflow日本語サイト

0 投票する

2 に答える

789 参照

mysql - mysql ストップワードファイル形式とは何ですか?

単語に引用符が付いているかどうか、カンマで区切られているか、行で区切られているか。

2011-05-22T09:19:24.357

0 投票する

1 に答える

1605 参照

solr - ファセット検索結果に表示される Solr ストップワード

現在、Solr スキーマのテキストフィールドでファセット検索をテストしており、stopwords.txt ファイルに多数の結果が含まれていることに気付きました。

私のスキーマは現在、テキストデータ型の既定の構成を使用しており、"solr.StopFilterFactory" フィルターが使用されている場合、ストップワードがインデックス化されていないという印象を受けました。

誰かがこれに光を当てて、a) ストップワードがファセットに適用されない理由とそれをどう扱うかを理解するのを手伝ってくれるか、b) ファセットクエリが返されないように正しい方向に私を向けてくれることを願っていますストップワードからの単語。

ありがとう！

solr facet stop-words facets

2011-05-22T16:51:35.613

0 投票する

3 に答える

17959 参照

java - Javaでのストップワードとステマー

類似性プログラムにストップワードを入れてから、ステマーを入れようと考えています (ポーター 1 または 2 を使用するかどうかは、実装が最も簡単かどうかによって異なります)。

ファイルからテキストを行全体として読み取り、それらを長い文字列として保存するので、2つの文字列を取得した場合、ex.

その弦を手に入れた今

ステミング: ステマーアルゴリズムを直接使用し、文字列として保存してから、プログラムにステマーを実装する前に行ったように、one.stem(); を実行するなどして、類似性に関する作業を続けることはできますか? ものの種類？

ストップワード: これはどのように機能しますか? 私はただ使っていますか？one.replaceall("私", ""); または、このプロセスに使用する特定の方法はありますか? 類似性アルゴリズムを使用して類似性を取得する前に、文字列の操作を続けて文字列を取得したいと考えています。ウィキは多くを語らない。

あなたが私を助けてくれることを願っています！ありがとう。

編集:学校関連のプロジェクトで、異なるアルゴリズム間の類似性に関する論文を書いているため、lucene や他のライブラリを使用することは許可されていないと思います。さらに、Lucene などのライブラリを使い始める前に、それがどのように機能するかを試して理解したいと思います。あまりご迷惑をお掛けしませんように(^^)

java nlp stop-words porter-stemmer

2011-05-25T09:53:34.757

0 投票する

1 に答える

2285 参照

java - lucene を使用した再インデックス作成/インデックスからの用語の削除

あなたが私を助けてくれることを願っています、ここに私の問題があります:

編集: 再考したので、インデックスから用語を削除する方法があれば、とにかく機能します。それを行う方法はありますか？ある場合は、残りの質問を読む必要はありません。ありがとう！

私がやろうとしていることは次のとおりです。 1 - 標準のストップワードを削除しながら、いくつかのファイルにインデックスを付ける必要があります。2 - その後、すべての用語のドキュメント頻度を数え、df < 2 を持つ用語を削除する必要があります

私がやっている方法：

1 - std ストップワードを削除しながら、indexwriter を使用してファイルのインデックスを作成します。2 - すべての用語の df を数え、ストップワードリストに追加します。3 - 次に、indexwriter を使用してテキストを再度インデックス付けしますが、新しいストップワードリストを使用します。

実際に起こっていること:

初めてインデックスを作成すると、計画どおりに進みます。問題は、もう一度インデックスを作成しようとしたときです。結果はかなり予測不能になります。

1) プログラムを 1 回実行すると、ストップワードに新しい単語が含まれていても、std ストップワードのみが削除されます。

2) プログラムをもう一度実行すると、df < 2 の項が削除されます。

1 回目の索引作成後と 2 回目の索引作成後に、索引内の用語を 2 回印刷します。

2 回目に実行すると、最初の印刷では df < 2 の用語が削除されているように見えます (2 回目のインデックス作成時に df < 2 の用語を追加することに注意してください。そうすべきではありません)。最初の印刷では削除されたように見えます。

説明がわかりにくかったかもしれませんが、わからないことがあれば教えてください。

皆さんが私を助けてくれることを願っています。どうもありがとうございました！

java indexing lucene stop-words

2011-06-01T15:17:59.470

0 投票する

1 に答える

926 参照

sqlite - SQLite3、FTS3、ストップワード

仮想 FTS3 テーブルの構築中に、SQLite3 が特定のキーワードまたは「ストップワード」をインデックス化しないようにするにはどうすればよいですか?

インデックスを作成したくない例には、「is」、「the」、「a」などがあります。

sqlite stop-words

2011-06-11T04:09:43.587

0 投票する

1 に答える

330 参照

mysql - ストップワードリストが読み込まれているが機能しない

基本的に「一人で」という単語を取り除いた、修正されたストップワードリストファイルがあります。更新しました/etc/my.cnf

私のmysqlサーバーを再起動した後、次のことを行って、mysqlが実際に新しい変数を取得していることを示しました。

その後、インデックスを更新するために REPAIR TABLE を実行しました。しかし、検索すると、新しい設定が反映されていないようです。私は何を間違っていますか？

mysql stop-words

2011-06-20T22:30:48.030

0 投票する

2 に答える

252 参照

sql-server-2008 - SQL Server 2008 レコードのソート中にストップワードを無視する

本のタイトルフィールドを持つテーブルがあります。次のようにレコードをソートできるようにしたいと思います。

古代のワニ
アニーおばさんのワニ
ワニの完全ガイド
国産ワニ
ワニに触るな！
楽なワニ狩り

など、タイトルの最初の単語として表示される "A"、"An"、および "The" は無視されます。(タイトルのどこでも無視できます。)

これらは SQL Server 2008 のストップワードであることを知っているので、誰かが検索で使用しても無視できます。

しかし、ORDER BY でそれらを無視する方法はありますか? (違いが生じる場合、クエリは ASP.NET の LinqDataSource を使用します。)

ありがとう！

sql-server-2008 sorting stop-words

2011-06-20T23:42:20.190

0 投票する

1 に答える

1917 参照

language-agnostic - これらの単語がストップワードと見なされるのはなぜですか?

私は自然言語処理の正式なバックグラウンドを持っていません.NLP側の誰かがこれに光を当てることができるかどうか疑問に思っていました. 私はNLTKライブラリをいじっていて、特にこのパッケージが提供するストップワード機能を調べていました:

[80]: nltk.corpus.stopwords.words('english')

アウト[80]:

[「私」、「私」、「私」、「私自身」、「私たち」、「私たち」、「私たち」、「私たち自身」、「あなた」、「あなた」、「あなた」、「あなた自身」、「あなた自身」、「彼」、「彼」、「彼」、「彼自身」、「彼女」、「彼女」、「彼女」、「彼女自身」、「それ」、「それ」、「それ自体」、「彼ら」、「彼ら」、「彼ら」、「彼ら」、「彼ら自身」、「何」、「どれ」、「誰」、「誰」、「これ」、「あれ」、「これら」、「それら」、「 am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', '持つ」、「する」、「する」、「した」、「する」、「a」、「an」、「the」、「and」、「but」、「if」、「or」、「because」 , 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'before', 'into', 'を通じて、中、前、後、上、下、先、上、下、中、外、上、「オフ」、「上」、「下」、「再び」、「さらに」、「その後」、「一度」、「ここ」、「そこ」、「いつ」、「どこで」、「なぜ」、「どのように」、「すべて」、「すべて」、「両方」、「それぞれ」、「少ない」、「もっと」、「ほとんど」、「その他」、「一部」、「そのような」、「いいえ」、「も」、「ない」、「のみ」、「自分」、「同じ」、「そう」、「より」、「も」、「非常に」、「s」、「t」、「できる」、「 will', 'just', 'don', 'should', '今']'s', 't', 'can', 'will', 'just', 'don', 'should', 'now']'s', 't', 'can', 'will', 'just', 'don', 'should', 'now']

私が理解できないのは、なぜ「ない」という言葉が存在するのですか？文中の感情を判断するために必要ではないでしょうか。たとえば、次のような文です。

何が問題なのかわかりません。

ストップワードnotが削除されると、文の意味がその反対に変わります ( I am sure what the problem is)。その場合、これらのストップワードを使用しない場合に見逃している一連のルールはありますか?

language-agnostic machine-learning nlp nltk stop-words

2011-06-26T03:55:56.880

0 投票する

2 に答える

2156 参照

php - SQLでMySQLストップワードを取得する方法

MySQLのft_stopword_file変数を使用してストップワードファイルを変更できることを知っています。しかし、これらのストップワードをPHPの配列に読み込む必要があります。だから私の質問は、

SQLクエリでデータベースにクエリを実行してストップワードの結果セットを取得する方法はありますか？

php mysql full-text-search stop-words

2011-07-06T18:19:57.713

0 投票する

1 に答える

815 参照

sql-server - Sql Server 2008-文字「/」がストップワードにならないようにするにはどうすればよいですか？

大きなフルテキストインデックステーブルがあり、そのような文字列がいくつかあると仮定します（もちろん、フルテキストインデックス列に）：

これらの文字列は、私が書いたとおりにクエリされた場合にのみ（私のアプリケーションにとって）意味のある数値です。

このようなクエリを実行すると、次のようになります。

2番目の文字列を含む行を返しますが、文字列に5111が含まれている以外に意味がないため、結果が返されないことを期待していました（数字の一部ではなく、数字全体のみが意味を持ちます）。

私が言及したような文字列の一部を返すことを回避する方法はありますか？SQLサーバーは「/」と「。」を処理していると思います。ストップワードとして、私は正しいですか？

sql-server sql-server-2008 full-text-search stop-words

2011-07-07T22:14:59.787

問題タブ [stop-words]

Reference