問題タブ [stop-words]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
635 参照

lucene - ディスマックス feat. ストップワード、同義語など

dismax は標準の requestHandler のようなすべての機能をサポートしていますか? ストップワード?同義語?ステミング? 「edismax」について聞いたことがありますか?

Solr1.4を使用しています

ストップワードの私の最初のテストでは、うまくいきません..うまくいくと思います..

count terms=[1,2] の場合、すべての用語に一致するように DisMax を構成しました

例(フランス語)

  • un tshirt (意味: a tshirt , my mm =2 の場合でも「tshirt」のみを検索することになっています)
    • dismax の結果はありません (それは、2 つの用語を探しています) : その dismax "un" 単語と "tshirt" 単語
    • 標準クエリで見つかった結果: 「tshirt」という単語のみを検索します。

事前に助けてくれてありがとう:)

0 投票する
6 に答える
1892 参照

c# - 記事 (「the」、「a」など) を無視して SQLite クエリをソートするにはどうすればよいですか?

C# を使用して、SQLite データベースから呼び出している映画タイトルのリストを表示しています。現在、すべての項目の先頭から「The」という単語を削除してテキストを並べ替える機能を持つカスタム ListBox クラスを使用しています。ただし、SQLite データベースから呼び出してからソートするため、最も簡単な方法とは言えません。できれば「SELECT」クエリでデータベースから直接並べ替えて、1 つのステップに減らしたいと思います。

これについていくつか検索を行ったところ、データベースに追加の並べ替え列を作成するなど、いくつかの提案が見つかりました。これは確かに可能性ですが、ほぼ同一の重複情報を挿入する必要のない、より簡単なオプションがあるかどうか疑問に思っています (特にデータベースが大きくなった場合)。私は SQLite にはかなり慣れていませんが、カスタム順序付けの作成に使用できる照合関数の作成について読んだことがあります。ただし、これが適切な使用法であるかどうかはわかりません.C#で実装する際の助けはないようです。

誰かが何らかのガイダンスを共有できることを望んでいました。追加の並べ替え列が最適な方法である場合は、それを実行します。

0 投票する
2 に答える
2250 参照

python - Pythonでのストップワードの削除とステマー

私はやや大きなドキュメントを持っており、Pythonを使用してこのドキュメントの単語をストップワード除去およびステミングしたいと考えています。誰かがこれらの棚パッケージを知っていますか?そうでない場合は、大きなドキュメントに十分な速度のコードも歓迎します。ありがとう

0 投票する
2 に答える
315 参照

objective-c - Objective cのストップワードを削除するより良い方法はありますか?

私が今行っている方法は、文字列をNSSet内の単語の配列に分割し、ストップワードのセットを差し引いたものです。より効率的な方法はありますか?

0 投票する
3 に答える
3175 参照

perl - 大きなテキスト ファイルからストップ ワードを削除するにはどうすればよいですか?

スカラーで収集した 10 億語のコーパスがあります。データ (テキスト) から削除したいすべてのストップ ワードを含む .regex ファイルがあります。

この .regex ファイルの使い方がわからないので、配列を作成し、.regex ファイルのすべてのストップ ワードをストップ ワード配列に格納しました。

ストップワードを削除するには、次のようにします。

これは実行に時間がかかります。Perl スクリプトで .regex ファイルを使用してストップ ワードを削除するにはどうすればよいですか? または、ストップワードを削除するより速い方法はありますか?

0 投票する
2 に答える
1208 参照

mysql - MySQL 全文ストップワードの問題

「products」という名前のデータベースと、列を持つ FULLTEXT インデックスがあります:titledescription. 私の製品はすべて潤滑剤(オイル)で、工業用と自動車用の 2 種類があり、比率は 55% ~ 45% です。auto-moto オイルの後に検索を行うと、「auto-moto」キーワードが行の半分以上に存在し、すべての行にオイルが存在するため、結果は返されません。したがって、MySQL はそれらを STOPWORDS に入れます。リスト。

私はPHPを使用しています。そのクエリを作成して正しい結果を返すにはどうすればよいですか?

0 投票する
5 に答える
3890 参照

ruby - テキストの説明から一般的な単語を単純にフィルタリングする

「a」、「the」、「best」、「kind」などの言葉。これを達成する良い方法があると確信しています

明確にするために、私は探しています

  1. できれば Ruby で実装できる最も単純なソリューション。
  2. エラーに対する許容度が高い
  3. 一般的なフレーズのライブラリが必要な場合は、それにも完全に満足しています
0 投票する
1 に答える
297 参照

ruby-on-rails-3 - モデル フィールドにストップ ワードを実装する簡単な方法

私はRails 3.0を使用しており、ストーリーの章のタイトルなど、公開された英語の参照フィールドを持つモデルがいくつかあります。「新規」、「更新」、「破棄」など、コントローラーのアクションに特定のストップワードを実装するエレガントな方法を探しています。これを行う最良の方法は何ですか?モデル?

0 投票する
2 に答える
708 参照

text-parsing - ストップワードのリストはどこに保存すればよいですか?

私の関数はテキストを解析し、「a」、「the」、「in」、「on」、「at」などの短い単語を削除します。

これらの単語のリストは、将来変更される可能性があります。また、異なるリスト間(つまり、異なる言語用)の切り替えもオプションになる場合があります。

では、そのようなリストはどこに保存すればよいのでしょうか。

  • 約50〜200語
  • 毎分多くの読み取り
  • 書き込み(変更)はほとんどありません-たとえば、数か月に1回

私はこれらのオプションを心に留めています:

  1. コード内のリスト(最速ですが、良い習慣のようには聞こえません)
  2. 別のファイル「stop_words.txt」(ファイルからの読み取り速度はどれくらいですか?同じ関数を呼び出す数秒ごとに同じファイルから同じデータを読み取る必要がありますか?)
  3. データベーステーブル。単語のリストがほとんど静的であると想定される場合、それは本当に効率的でしょうか?

私はRubyonRailsを使用しています(それが違いを生む場合)。

0 投票する
4 に答える
18989 参照

php - テキストブロックから関連するタグ/キーワードを抽出

ユーザーが次のようなテキストのブロックを提供するような、特定の実装が必要でした。

"要件 - Linux、Apache 2、MySQL 5、および PHP 5 を使用した LAMP 環境での実用的な知識 - Web 2.0 標準の知識 - JSON に慣れている - フレームワーク、Zend、OOP の操作に関する実践的な経験 - クロス ブラウザー Javascripting、JQuery など. - サブバージョンなどのバージョン管理ソフトウェアの知識があることが望ましいです。"

私がやりたいことは、関連するキーワードを自動的に選択してタグ/キーワードを作成することです。したがって、上記のテキストの場合、関連するタグは次のようになります: mysql、php、json、jquery、バージョン管理、oop、web2.0、javascript

PHP/Javascriptなどでそれを行うにはどうすればよいですか? ヘッドスタートは本当に役に立ちます。