問題タブ [phrase]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
.net - Lucene.net の特殊文字を含む正確なフレーズ
検索結果に特殊な lucene 文字が含まれている lucene.net で全文検索を行う際に問題が発生しました。
Lucene ドキュメントに「content」という名前のフィールドがあります。このフィールドは次のように作成され、索引付けされたドキュメントのコンテンツが含まれます。
インデックスの作成には、Standardanalyzer を使用しています。
インデックスのクエリには、次のコードを使用しています。
クエリは、IndexSearcher から結果を取得するために使用される BooleanQuery に追加されます。コードはクエリの 99% で正常に機能するため、残りのコードはそれほど重要ではないと思います。また、インデックスのクエリに StandardAnalyzer を使用しています。
ここに問題があります。ドキュメントの「コンテンツ」フィールドに、「-」で区切られたテキストが含まれていることがあります。
一部のテキスト 一部のテキスト セレクターレバー 一部のテキスト 一部のテキスト
「セレクターレバー」を使用して全文検索(正確なフレーズ)を行っているとき。クエリは次のようになります。
内容:「セレクターレバー」
ここでの問題は、上記のテキストを含むドキュメントも見つかることですが、2 つの単語が空白ではなく「-」で区切られているため、見つからないはずです。
アナライザーと、「-」が lucene の特殊文字であるという事実に関係があると思います。
誰かがこの問題を解決するのを手伝ってくれるかもしれません。
前もって感謝します マーティン
java - Javaでドキュメント内のフレーズ(複数のトークン文字列)の頻度を見つける方法は?
ドキュメント内の複数のトークン文字列またはフレーズの頻度を調べたい。それは私が探している単語/単一用語の頻度ではなく、常に複数用語であり、用語の数は動的です...
例:ドキュメント内の「友達との単語」の頻度を検索する!
ヘルプ/ポインタは大歓迎です。
ありがとうDebjani
tsql - SQL Server 2008(T-SQL)でのフレーズ検索
varchar
3行の列があります。
SELECT
クエリが次の順序で結果を返すようにします。
つまり、で始まる一致は、キーワードを含む'keyword'=orange
ものの前に来る必要があり、キーワードで終わるものの前に再び来る必要があります。
T-SQLを使用してこれを行うにはどうすればよいですか?キーワードを使ってみLIKE
ましたが、今のところ成功していません。
solr - 文字列のクラスターのタイトル (クラスターの中心) を効率的に選択する
(不完全に) クラスター化された文字列データがあり、1 つのクラスター内のアイテムは次のようになります。
最適なタイトルは「黄色の熟したバナナ」です。
現在、SQL GROUP BY を使用して、単純なヒューリスティックを使用しています。私のデータにはそのようなクラスターが大量に含まれており、それらは頻繁に変更され、新しい果物がクラスターに追加またはクラスターから削除されるたびに、クラスターのタイトルを再計算する必要があります。
改善したいのは以下の2点です。
(1)効率- たとえば、新しい果物の名前をクラスターのタイトルのみと比較し、毎回すべての果物のタイトルのグループ化/フレーズ クラスター化を回避します。
(2)精度- 最も一般的な完全な名前を探す代わりに、最も一般的なフレーズを抽出したいと考えています。現在のアルゴリズムは、2 回繰り返され、最も一般的な完全なフレーズである「Yellowripe」を選択します。ただし、「黄色の熟したバナナ」というフレーズは、特定のセットで最も一般的です。
Solr + Carrot2 を使用することを考えています (2 番目の経験はありません)。この時点で、文書をクラスター化する必要はありません。文書は他のパラメーターに基づいて既にクラスター化されています。中心となるフレーズをクラスターの中心/タイトルとして選択するだけで済みます。
任意の入力は非常に高く評価されています, ありがとう!
solr - Solr: EdgeNGramFilterFactory を使用した正確なフレーズ クエリ
Solr (3.3) では、フィールドを文字単位で検索可能にし、EdgeNGramFilterFactory
フレーズ クエリにも対応させることはできますか?
たとえば、「contrat informatique」が含まれている場合、ユーザーが次のように入力すると見つかるフィールドを探しています。
- 契約
- 情報
- 制御
- 情報
- 「契約情報」
- 「契約情報」
現在、私は次のようなものを作りました:
...しかし、フレーズクエリでは失敗しました。
solr admin のスキーマ アナライザーを見ると、「contrat informatique」によって次のトークンが生成されていることがわかります。
そのため、クエリは "contrat in" (連続したトークン) では機能しますが、"contrat inf" では機能しません (この 2 つのトークンが分離されているため)。
あらゆる種類のステミングがフレーズ クエリで機能すると確信していますが、EdgeNGramFilterFactory
.
java - LUCENEでslopを使用してフレーズクエリを使用しているときに問題に直面する
私はフレーズクエリでいくつかの問題に直面しているので、フレーズクエリが実際にスロップのものでどのように機能するかを正確に知るための小さなコードを書いてください:
私は「abcinstituteoftechnology」という文字列を持っており、この文字列のさまざまな組み合わせ(より鉄片のようなもの)に次のようにインデックスを付けました。
インデックスディレクトリからすべてのトークンを読み取ると、次のトークンのセットがあります。
今、私が「abcinstitutetechnology」という用語を検索すると
slopを使用したフレーズクエリのドキュメントによると、いくつかの結果が得られるはずですが、空の結果セットが得られます。しかし、インデックス付きトークンとまったく同じ用語を検索すると、結果が得られます。
フレーズクエリを使用する場合、「abcinstitutetechnology」という用語はトークン「abcinstituteengineeringtechnology」と一致する必要があると思います???
私は何か間違ったことをしていますか?ヘルプ
php - 検索パターン頻度
PHPソリューションが望ましいですが、どんなアイデアでも素晴らしいでしょう。
テキストブロブを与える
'これは、赤いセーターと紫のゾウを見つけたいコンテンツのスーパー ストリングです。紫色のゾウは 2 回数えます。赤いセーターが 3 回出現するので、赤いセーターは 3 回カウントされます。
とフレーズリスト
「赤いセーター、紫のゾウ」
テキスト BLOB を検索して出現回数を返したい
したがって
赤いセーター = 3 と紫の象 = 2
twitter - PHP: ランダムに生成されたリツイート/共有ボタンの使用と統合
ソーシャル メディアの Web サイト、特に Twitter で簡単に共有できる、ランダムに生成されたフレーズを作成しようとしています。次の PHP コードを使用して、ランダムなフレーズを生成しています。
このコードは、'responses.txt' でフレーズを含む行を検索し、その行を呼び出すことができます。
たとえば、この生成された行の横に、(#[websitename] を介して) 所定の #hatchtag を付けてフレーズをリツイートするリツイート ボタンを配置するにはどうすればよいでしょうか。
私はツイッターの側面にもっと興味がありますが、他のソーシャルメディアのウェブサイトが他の人を助けることができます.
solr - Solr 3.4.0 での EdegeNGram 分析とフレーズ検索の両方のサポート
SOLRクエリの各用語に対して「startsWith」検索を有効にしたいだけでなく、フレーズ検索も実行できるようにしたい(引用符で指定)。プレフィックス検索では、最初にサフィックス「*」を追加しました。このソリューションでは、プレフィックス検索とフレーズ検索の両方が可能ですが、ワイルドカード検索であり、ワイルドカード検索では用語が分析されないため、このソリューションは好きではありません。
そのため、インデックス作成時にのみ EdgeNgramFilterFactory を有効にしました。プレフィックス検索は正常に機能しますが、正確なフレーズ検索は機能しなくなりました。
EdgeNgram が有効になっている場合でも、フレーズ検索を有効にする方法を知っている人はいますか?
ありがとう!
ここにschema.xmlがあります
また、WordDelimiterFilterFactory を使用すると、強調表示がうまく機能しないことに気付きました。
r - R テキスト マイニング: 特定の単語がコーパスに出現する回数を数えますか?
この質問は他の言語で回答されていますが、R では回答されていません。
[特に R テキスト マイニング] コーパスから取得した頻出フレーズのセットがあります。ここで、これらのフレーズが別のコーパスに出現した回数を検索したいと思います。
TMパッケージでこれを行う方法はありますか? (または別の関連パッケージ)
たとえば、CorpusA から取得したフレーズ「タグ」の配列があるとします。もう 1 つのコーパスであるコーパス B には、数千のサブテキストがあります。タグ内の各フレーズが CorpusB に何回出現したかを調べたい。
いつものように、私はあなたのすべての助けに感謝します!