問題タブ [full-text-indexing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
search - 複数のロケールとコンテンツ タイプに対応する Solr コアを構築するにはどうすればよいですか?
Solr サーバーを実行して、公開 Web サイトのさまざまな側面にわたって検索を統合することを検討しています。まず、いくつかのロケール(米国、アイルランド、日本など) といくつかの種類のコンテンツ(フォーラム、通常の Web ページ、ヘルプ ページ、製品など) があります。
単一のロケールに対して検索を実行できるようにしたいのですが、複数のコンテンツ タイプの結果を返して、それらをタブ付きの結果セットとして表示できるようにしたいと考えています。
可能なオプション:
- ロケールごとに 1 つのコアを用意し、同じインデックス内のフィールドを使用してコンテンツ タイプを区別します。
- コンテンツ タイプごとに 1 つのコアを用意します。
- コンテンツ タイプとロケールの組み合わせごとに 1 つのコアを用意します。
- すべてのためのシングルコア/シングルインデックス。
考慮事項:
Solr wiki は、マルチコアが約 1,000 万のドキュメントでパフォーマンスの向上をもたらし始めると述べています。ただし、すべてのデータを単一のインデックスに分割するだけのソリューションは、少し面倒で、シャード/スケーリングが困難になる可能性があります。ただし、コア全体でマルチ検索する必要がないため、シングルコアは単一の結果セットを取得するのに最適です。
私にアドバイスできるマルチコアを使用した人はいますか?
sql-server - SQL フルテキスト インデクサー、完全一致とエスケープ
Keyword Analyzer ベースの Lucene.NET インデックスを SQL Server 2008 R2 ベースのインデックスに置き換えようとしています。
クエリを実行する必要があるカスタム インデックス フィールドを含むテーブルがあります。インデックス列の値 (以下を参照) は、一連の .NET タイプからのカスタム インデックス フィールドの名前と値のペアの組み合わせです。構造が不明なため、実際の値は実行時に属性から取得されます。
AND と OR を使用してセット名と値のペアを検索し、クエリが一致する行を返すことができる必要があります。
簡単なクエリは次のようになります。
そのクエリは、次のエラーになります。
そのことを念頭に置いて、Index
列のデータをand|
の代わりに使用するように変更しました。[
]
現在、そのクエリは有効ですが、実行すると、完全に一致するレコード (この場合は正確に 1 つ) ではなく、次を含むすべての行が返されますDescriptor.Url
。/
私の質問は、クエリをエスケープして[
andを考慮し、正確に一致する行]
だけが返されるようにするにはどうすればよいですか?
より複雑なクエリは次のようになります。
ありがとう、
キーロン
sql - SQL Server 2008 の全文索引
SQL Management Studio でテーブル名を右クリックし、[フルテキスト インデックス] をクリックすると、テーブルにインデックスを付けることができます。
このオプションは存在しますが、私の管理スタジオでは「無効」になっています (明るい灰色で表示されます)。
また、MSDN ブログでは、MSSQLFDLauncher について指摘しています。これも私の場合はありません。
http://msdn.microsoft.com/en-us/library/ms345189(v=SQL.100).aspx
どんな助けでも大歓迎です
pdf - How to install a pdf iFilter in SQL Server 2000?
I have a database with binary objects that contain documents. A separate column contains the extension (doc, docx, xls, html, txt, ...). I have set up full text indexing and this has worked for years: I can query the contents of the indexed documents.
Now I also want to index pdf files that are stored in the database. This can be done by installing an iFilter. According to Adobe's website, the pdf iFilter is installed when you install the latest version of Acrobat Reader, which I did.
I think I need to do more, because (even after a full reboot of the machine) the pdf iFilter isn't listed with filtreg.exe. I did found some documentation about what needs to be done to enable the iFilter in SQL Server 2005, but these commands do not work in SQL Server 2000.
Has anybody managed to set up full text indexing for pfd in SQL Server 2000?
mysql - テキストのインデックス作成-MySQLとMSSQL
このようなアプリケーションがある画像:1つのDBテーブル、いくつかのintフィールド、いくつかの小さなvarcharフィールド、および約10のTEXTフィールド(コンテンツ変数-長さ約50文字、ほとんどが約100〜200、いくつかが約1000、非常に少ないデータ) 1000)。行数はx0000〜x00 000です。ここで、次のようにクエリを実行する効果的な方法が必要です(メタ言語)。
SELECT(1 if textfield1 LIKE%param1%ELSE 0)as r1、(1 if textfield2 LIKE%param2%ELSE 0)as r2、...など、通常、1つのクエリのほとんどのテキストフィールドに対して(動的である可能性があります)それらのうちの2つが含まれている、それらすべてである可能性があります)。
さて、質問-私にとって、MySQLとMSSQLのどちらが良いですか(おそらく可能な限り表現し、本当に必要な場合は完全にアップグレードします)?
MySQLには、最初の文字のカスタム数に設定した優れたテキストインデックスがあることを知っているので、一般的なシナリオでバランスを取ることができます(例:http://fernandoipar.com/2009/08/12/indexing-text -columns-in-mysql /)
MSSQLには全文索引しかありませんが、私はこれを経験していません。単語の近接性や類似の単語などの機能は必要ないことに注意してください(run = ran;一部のステミングは便利ですが、データは多言語であるため、とにかく不可能です)。一般的なLIKE%word%システムが必要です。それだけです。また、短い部分文字列(2文字)を見つけることができなければなりません。
事実上、目標は1時間/日あたりできるだけ多くのこれらのクエリを実行することです(可能な限り頻繁に更新する必要があるため、十分な結果は得られません)。したがって、この種の効率を要件と考えてください:)
ありがとう!
更新:明らかに、LIKE%foo%クエリを最適化するためにインデックスを使用する方法はありません。したがって、新しい質問は次のとおりです。このタイプのクエリを高速化する他の方法はありますか?(「RAMまたはSSDをもっと購入する」などは省略してください:)
c++ - Indri Lemur: make ファイルの問題
インドリキツネザル アプリケーションをコンパイルしたいので、myapp.cpp でフォルダーを作成し、ここで説明されているように、Indri ルート ディレクトリから Makefile.app.in を myApp/Makefile.app にコピーしました。
しかし、make を実行すると、次のエラーが表示されます。これはツールキット固有のエラーですか、それともコンパイラに関するものですか?
ありがとう
lucene - Lucene: IR 情報を追加して精巧なデータを出力する
ドキュメント用語に td-idf 重みなどのメタ情報を追加するために、データベースを処理する必要があります。
続いて、td-idf コサイン類似度などの類似度を使用してドキュメント ペアを作成する必要があります...
このタスクには Apache Lucene を使用する予定です。私は実際には検索やクエリの実行には興味がありませんが、上記のドキュメント ペアと類似度スコアを含む出力ファイルを生成するために、データにインデックスを付けて詳しく説明することに関心があります。次のステップは、これらの結果を Weka 分類器に渡すことです。
Lucene で簡単にできますか? ありがとう
mongodb - たくさんの小さなドキュメントを全文検索できる最高のデータストア?(例:Splunkのようなシステム)
数え切れないほどのSyslogメッセージのインデックスを作成して保存するシステムを検討しています。これらはテキストメッセージであり、いくつかの属性(システム名、日付/時刻、メッセージタイプ、メッセージ本文)があり、通常はそれぞれ100〜1500バイトです。
これらのメッセージは1日あたり2〜10 GB生成され、少なくとも30日間保持する必要があります。
Splunkシステムには、非常に優れたインデックス作成およびドキュメント圧縮システムがあります。
何を使う?
mongodbのことを考えましたが、この小さなサイズのドキュメントには不適切なようです。
SQL Serverは可能性がありますが、おそらくこの目的にはあまり効率的ではないようです。
luceneを含むテキストファイル?--Windowsファイルシステムは、数え切れないほどのファイルを含むdirsを常に好むとは限りません
提案?
ありがとう!
mysql - mysqlのテキストフィールドから特定の単語を抽出します
テキストフィールドを含むテーブルがあります。行に応じて、フィールドには3〜4文程度あります。
ここで、オートコンプリートhtmlオブジェクトを作成しています。単語の先頭の入力を開始し、データベースがデータベースのテキストフィールドからそれらの文字で始まる単語を返すようにします。
テキストフィールドの例:私はフィッシュスティックが好きです、フィッシュハットも素晴らしいです
オートコンプリートで「魚」と入力すると、「フィッシュスティック」と「フィッシュハット」が提案されます
クエリ以外はすべて機能します。
特定の単語を含む行を簡単に見つけることができますが、全文ではなく単語だけを抽出することはできません。
汚れていることはわかっていますが、データベースを再配置できません。
ご協力ありがとうございました!
編集:
これが私が得たものです、ブレント・ワーデンのおかげで、それはきれいではありませんが、それは機能します:
LOCATE
同じ式を何度も使用しないようにする方法について何か考えはありますか?
full-text-search - スフィンクスの語形
wordforms ファイルを使用すると、次のような単語になります。
テレビ > テレビ
テレビを検索すると、テレビの結果が表示されますが、テレビの結果も表示したいのですが、可能ですか?