“full-text-indexing”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

944 参照

search - 複数のロケールとコンテンツタイプに対応する Solr コアを構築するにはどうすればよいですか?

Solr サーバーを実行して、公開 Web サイトのさまざまな側面にわたって検索を統合することを検討しています。まず、いくつかのロケール(米国、アイルランド、日本など) といくつかの種類のコンテンツ(フォーラム、通常の Web ページ、ヘルプページ、製品など) があります。

単一のロケールに対して検索を実行できるようにしたいのですが、複数のコンテンツタイプの結果を返して、それらをタブ付きの結果セットとして表示できるようにしたいと考えています。

可能なオプション:

ロケールごとに 1 つのコアを用意し、同じインデックス内のフィールドを使用してコンテンツタイプを区別します。
コンテンツタイプごとに 1 つのコアを用意します。
コンテンツタイプとロケールの組み合わせごとに 1 つのコアを用意します。
すべてのためのシングルコア/シングルインデックス。

考慮事項:

Solr wiki は、マルチコアが約 1,000 万のドキュメントでパフォーマンスの向上をもたらし始めると述べています。ただし、すべてのデータを単一のインデックスに分割するだけのソリューションは、少し面倒で、シャード/スケーリングが困難になる可能性があります。ただし、コア全体でマルチ検索する必要がないため、シングルコアは単一の結果セットを取得するのに最適です。

私にアドバイスできるマルチコアを使用した人はいますか?

2011-01-04T17:57:55.797

0 投票する

2 に答える

989 参照

sql-server - SQL フルテキストインデクサー、完全一致とエスケープ

Keyword Analyzer ベースの Lucene.NET インデックスを SQL Server 2008 R2 ベースのインデックスに置き換えようとしています。

クエリを実行する必要があるカスタムインデックスフィールドを含むテーブルがあります。インデックス列の値 (以下を参照) は、一連の .NET タイプからのカスタムインデックスフィールドの名前と値のペアの組み合わせです。構造が不明なため、実際の値は実行時に属性から取得されます。

AND と OR を使用してセット名と値のペアを検索し、クエリが一致する行を返すことができる必要があります。

簡単なクエリは次のようになります。

そのクエリは、次のエラーになります。

そのことを念頭に置いて、Index列のデータをand|の代わりに使用するように変更しました。[]

現在、そのクエリは有効ですが、実行すると、完全に一致するレコード (この場合は正確に 1 つ) ではなく、次を含むすべての行が返されますDescriptor.Url。/

私の質問は、クエリをエスケープして[andを考慮し、正確に一致する行]だけが返されるようにするにはどうすればよいですか?

より複雑なクエリは次のようになります。

ありがとう、
キーロン

sql-server indexing lucene.net sql-server-2008-r2 full-text-indexing

2011-01-19T11:27:07.547

0 投票する

1 に答える

535 参照

sql - SQL Server 2008 の全文索引

SQL Management Studio でテーブル名を右クリックし、[フルテキストインデックス] をクリックすると、テーブルにインデックスを付けることができます。

このオプションは存在しますが、私の管理スタジオでは「無効」になっています (明るい灰色で表示されます)。

また、MSDN ブログでは、MSSQLFDLauncher について指摘しています。これも私の場合はありません。

http://msdn.microsoft.com/en-us/library/ms345189(v=SQL.100).aspx

どんな助けでも大歓迎です

sql sql-server-2008 full-text-search full-text-indexing

2011-01-20T14:44:19.120

0 投票する

1 に答える

523 参照

pdf - How to install a pdf iFilter in SQL Server 2000?

I have a database with binary objects that contain documents. A separate column contains the extension (doc, docx, xls, html, txt, ...). I have set up full text indexing and this has worked for years: I can query the contents of the indexed documents.

Now I also want to index pdf files that are stored in the database. This can be done by installing an iFilter. According to Adobe's website, the pdf iFilter is installed when you install the latest version of Acrobat Reader, which I did.

I think I need to do more, because (even after a full reboot of the machine) the pdf iFilter isn't listed with filtreg.exe. I did found some documentation about what needs to be done to enable the iFilter in SQL Server 2005, but these commands do not work in SQL Server 2000.

Has anybody managed to set up full text indexing for pfd in SQL Server 2000?

pdf sql-server-2000 full-text-indexing ifilter

2011-02-04T07:54:09.447

0 投票する

2 に答える

1035 参照

mysql - テキストのインデックス作成-MySQLとMSSQL

このようなアプリケーションがある画像：1つのDBテーブル、いくつかのintフィールド、いくつかの小さなvarcharフィールド、および約10のTEXTフィールド（コンテンツ変数-長さ約50文字、ほとんどが約100〜200、いくつかが約1000、非常に少ないデータ） 1000）。行数はx0000〜x00 000です。ここで、次のようにクエリを実行する効果的な方法が必要です（メタ言語）。

SELECT（1 if textfield1 LIKE％param1％ELSE 0）as r1、（1 if textfield2 LIKE％param2％ELSE 0）as r2、...など、通常、1つのクエリのほとんどのテキストフィールドに対して（動的である可能性があります）それらのうちの2つが含まれている、それらすべてである可能性があります）。

さて、質問-私にとって、MySQLとMSSQLのどちらが良いですか（おそらく可能な限り表現し、本当に必要な場合は完全にアップグレードします）？

MySQLには、最初の文字のカスタム数に設定した優れたテキストインデックスがあることを知っているので、一般的なシナリオでバランスを取ることができます（例：http：//fernandoipar.com/2009/08/12/indexing-text -columns-in-mysql /）

MSSQLには全文索引しかありませんが、私はこれを経験していません。単語の近接性や類似の単語などの機能は必要ないことに注意してください（run = ran;一部のステミングは便利ですが、データは多言語であるため、とにかく不可能です）。一般的なLIKE％word％システムが必要です。それだけです。また、短い部分文字列（2文字）を見つけることができなければなりません。

事実上、目標は1時間/日あたりできるだけ多くのこれらのクエリを実行することです（可能な限り頻繁に更新する必要があるため、十分な結果は得られません）。したがって、この種の効率を要件と考えてください:)

ありがとう！

更新：明らかに、LIKE％foo％クエリを最適化するためにインデックスを使用する方法はありません。したがって、新しい質問は次のとおりです。このタイプのクエリを高速化する他の方法はありますか？（「RAMまたはSSDをもっと購入する」などは省略してください:)

mysql sql-server full-text-indexing

2011-02-08T10:19:11.703

0 投票する

1 に答える

489 参照

c++ - Indri Lemur: make ファイルの問題

インドリキツネザルアプリケーションをコンパイルしたいので、myapp.cpp でフォルダーを作成し、ここで説明されているように、Indri ルートディレクトリから Makefile.app.in を myApp/Makefile.app にコピーしました。

しかし、make を実行すると、次のエラーが表示されます。これはツールキット固有のエラーですか、それともコンパイラに関するものですか?

ありがとう

c++makefile full-text-indexing

2011-02-22T16:14:52.743

0 投票する

1 に答える

182 参照

lucene - Lucene: IR 情報を追加して精巧なデータを出力する

ドキュメント用語に td-idf 重みなどのメタ情報を追加するために、データベースを処理する必要があります。

続いて、td-idf コサイン類似度などの類似度を使用してドキュメントペアを作成する必要があります...

このタスクには Apache Lucene を使用する予定です。私は実際には検索やクエリの実行には興味がありませんが、上記のドキュメントペアと類似度スコアを含む出力ファイルを生成するために、データにインデックスを付けて詳しく説明することに関心があります。次のステップは、これらの結果を Weka 分類器に渡すことです。

Lucene で簡単にできますか? ありがとう

lucene full-text-indexing

2011-02-22T22:09:34.870

0 投票する

5 に答える

1878 参照

mongodb - たくさんの小さなドキュメントを全文検索できる最高のデータストア？（例：Splunkのようなシステム）

数え切れないほどのSyslogメッセージのインデックスを作成して保存するシステムを検討しています。これらはテキストメッセージであり、いくつかの属性（システム名、日付/時刻、メッセージタイプ、メッセージ本文）があり、通常はそれぞれ100〜1500バイトです。

これらのメッセージは1日あたり2〜10 GB生成され、少なくとも30日間保持する必要があります。

Splunkシステムには、非常に優れたインデックス作成およびドキュメント圧縮システムがあります。

何を使う？

mongodbのことを考えましたが、この小さなサイズのドキュメントには不適切なようです。

SQL Serverは可能性がありますが、おそらくこの目的にはあまり効率的ではないようです。

luceneを含むテキストファイル？--Windowsファイルシステムは、数え切れないほどのファイルを含むdirsを常に好むとは限りません

提案？

ありがとう！

mongodb full-text-indexing datastore

2011-02-24T05:49:53.217

0 投票する

2 に答える

4674 参照

mysql - mysqlのテキストフィールドから特定の単語を抽出します

テキストフィールドを含むテーブルがあります。行に応じて、フィールドには3〜4文程度あります。

ここで、オートコンプリートhtmlオブジェクトを作成しています。単語の先頭の入力を開始し、データベースがデータベースのテキストフィールドからそれらの文字で始まる単語を返すようにします。

テキストフィールドの例：私はフィッシュスティックが好きです、フィッシュハットも素晴らしいです

オートコンプリートで「魚」と入力すると、「フィッシュスティック」と「フィッシュハット」が提案されます

クエリ以外はすべて機能します。

特定の単語を含む行を簡単に見つけることができますが、全文ではなく単語だけを抽出することはできません。

汚れていることはわかっていますが、データベースを再配置できません。

ご協力ありがとうございました！

編集：

これが私が得たものです、ブレント・ワーデンのおかげで、それはきれいではありませんが、それは機能します：

LOCATE同じ式を何度も使用しないようにする方法について何か考えはありますか？

mysql sql database full-text-search full-text-indexing

2011-03-03T18:45:18.960

0 投票する

1 に答える

433 参照

full-text-search - スフィンクスの語形

wordforms ファイルを使用すると、次のような単語になります。

テレビ > テレビ

テレビを検索すると、テレビの結果が表示されますが、テレビの結果も表示したいのですが、可能ですか?

full-text-search sphinx full-text-indexing fulltext-index

2011-03-11T17:54:09.007

問題タブ [full-text-indexing]

Reference