問題タブ [full-text-indexing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
910 参照

sql-server-2008 - Full Text Index type column is empty

I am trying to create an index on a VarBinary(max) field in my SQL Server 2008 database.

The steps I am taking are as follows:

Table: dbo.Records

  • Right click on table and select "Full Text Index"
  • Then select "Define Index..."
  • I choose the primary key which is the PK of my table (field name Id, type UniqueIndentifier).
  • I then get the screen with the options Available Columns, Language for Word Breaker and Type Column
  • I select my VarBinary(max) field called Chart as the Available Column by ticking the box.
  • I select "English" as the Language for Word Breaker field.

Then... I try to select the Type Column but there are no entries in here. I cannot proceed by clicking "Next>" until this column is populated.

Why are there no entries in this column for selection and what should be in there?

Note 1: The VarBinary(max) field is linked to a file group if that makes any difference. Note 2: Also noticed that in the table designer I cannot set the full text option on that same field to "Yes" - its permanently stuck on "No".

Thanks.

0 投票する
2 に答える
868 参照

sql-server-2005 - コンテンツ内のノイズワードを見つけるのに役立つSQLServer2005フルテキストインデックスクエリ

追加のノイズワードを決定するのに役立つ全文インデックスをクエリする方法はありますか?私はいくつかのカスタムノイズワードを追加したいと思います、そして提案を決定するのを助けるためにインデックスを分析する方法があるかどうか疑問に思いました。

0 投票する
2 に答える
574 参照

sql - 数字を含むSQL Server CONTAINSで結果が得られない

フルテキスト インデックスが作成されたデータベース テーブルがあり、CONTAINS 関数を使用して検索クエリを実行します。

私がする時:

「Plant」と「one」という単語を含む説明に一致するすべての正しい結果が返されます。

「Plant 1」、「Plant 2」などと名前が付けられている植物がありますが、これが問題です。

これを行うと、結果が得られません:

理由を知っている人はいますか?

0 投票する
5 に答える
3909 参照

c# - バイナリファイルをBLOBおよびテキストとしてSQLServerに保存します(またはフルテキストインデックスからテキストを取得します)

現在、ファイル(PDF、DOC)をBLOBフィールドとしてデータベースに保存しています。ファイルの生のテキストを取得して、ヒットハイライトやその他の機能のために操作できるようにしたいと思います。

SQLまたは.netコードを使用して、ファイルを解析し、保存時に生のテキストを保存する簡単な方法を知っている人はいますか。アドビにはPDFをテキストに変換するfiltdumpユーティリティがあることがわかりました。Filtdumpはコマンドラインツールのようですが、ファイルストリームを使用する方法がわかりません。また、Officeドキュメントやその他のファイルタイプの抽出機能はどうなりますか?

-また-

サードパーティのフィルターを使用せずに、SQLフルテキストインデックスから生のテキストを引き出す方法はありますか?

Luceneなどのサードパーティツールを使用せずに.netおよびMSSqlソリューションを構築しようとしていることに注意してください

0 投票する
2 に答える
134 参照

lucene - ApacheLuceneに関する簡単な質問のカップル

--私は宗教戦争を始めたくありませんが、グーグルですばやく検索すると、ApacheLuceneがインデックス作成と検索に適したオープンソースツールであることがわかります。他にありますか?

--Luceneはインデックスファイルを保存するためにどのファイル形式を使用しますか?

よろしくお願いします。ダグ

0 投票する
2 に答える
1654 参照

python - PythonでのCSVファイルコンテンツのインデックス作成

2つのフィールド(id、url)のみを含む非常に大きなCSVファイルがあります。Pythonを使用してURLフィールドのインデックスを作成したいのですが、Wh​​ooshやPyluceneなどのツールがあることを知っています。しかし、例を機能させることができません。誰かがこれを手伝ってくれますか?

0 投票する
3 に答える
1263 参照

full-text-search - Lucene /SolrをB2BWebアプリ用にセットアップする方法は?

与えられた:

  • クライアント(ビジネス顧客)ごとに1つのデータベース
  • 5000クライアント
  • クライアントには2〜2000人のユーザーがいます(平均は約100ユーザー/クライアント)
  • データベースあたり10万から1000万レコード
  • ユーザーはこれらのレコードを頻繁に検索する必要があります(データをナビゲートするための最良の方法です)

おそらく関連情報:

  • 毎週複数の新規クライアント(営業時間中いつでも)
  • 複数のWebサーバーとデータベースサーバー(ユーザーは任意のWebサーバーを介してログインできます)
  • Lucene(およびSolr)には幅広いサポートがあるため、言語やSQLブランドにとらわれないようにしましょう。

例えば:

Joel Spolskyはポッドキャスト#11で、彼のホスト型Webアプリ製品であるFogBugzOn-DemandはLuceneを使用していると述べました。彼には何千ものオンデマンドクライアントがいます。そして、各クライアントは独自のデータベースを取得します。

クライアントごとにインデックスを使用し、クライアントのデータベースに保存します。詳細はわかりません。そして、これがLuceneにとって深刻なmodであるかどうかはわかりません。

質問:

各クライアントがデータベース内でのみ検索できるように、Lucene検索をどのように設定しますか?

インデックスをどのように設定しますか?
インデックスはどこに保存しますか?
すべての検索クエリにフィルターを追加する必要がありますか?
クライアントがキャンセルした場合、そのインデックス(の一部)をどのように削除しますか?(これは些細なことかもしれません-まだわかりません)

可能な解決策:

各クライアント(データベース)のインデックスを作成します

  • 長所:検索は高速です(すべてのインデックスを1つにする方法よりも)。インデックスは、クライアントのデータのサイズに関連しています。
  • 短所:これが何を意味するのかわかりません。また、これがLuceneの範囲を超えているかどうかもわかりません。

database_nameフィールドを持つ単一の巨大なインデックスがあります。常にdatabase_nameをフィルターとして含めます。

  • プロ:わからない。技術サポートや請求部門がすべてのデータベースで情報を検索するのに適しているかもしれません。
  • 短所:検索は(クライアントごとのインデックス方式よりも)低速です。クエリフィルターが削除された場合のセキュリティの欠陥。

最後にもう1つ、 Solr(Luceneの拡張)
を使用した回答も受け入れます。おそらく、この問題により適しています。わからない。

0 投票する
1 に答える
1682 参照

sql-server - CONTAINSTABLE SQL SERVER FULL TEXT SEARCHで「AND」を使用すると問題が発生する

FULL-TEXT をしばらく使用していますが、最も適切な結果が得られないことがあります。

次のようなフィールドがAn Overview of Pain Medicine 5/12/2006あり、ユーザーが入力した場合An Overview 5/12/2006

したがって、次のような検索を作成します。

"An" AND "Overview" AND "5/12/2006"- 0 件 (悪い)

"Overview" AND "5/12/2006"- 1 件 (良い)

私のクエリの CONTAINSTABLE 部分:

「検索可能」は、アクティビティのタイトルと開始日 (文字列に変換) が 1 つのフィールドに含まれているため、すべて検索しやすいフィールドです。

なぜこれが起こるのでしょうか?

[アップデート]

さて、NOISE 単語理論をテストしました。使用"Pain" AND "Overview" AND "5/12/2006"しましたが、正常に動作します。

しかし、「の」を追加すると失敗します。'Of' と 'An' はノイズ ワードでなければなりません。

問題は、ノイズ ワードが存在する場合に、結果から単語を削除するのではなく、単語を単に IGNORE にするにはどうすればよいかということです。

任意のヒント?

0 投票する
1 に答える
1107 参照

java - クリーンアップに SnowballAnalyzer を使用して、Lucene でテキスト ドキュメントのインデックスを作成するときの例外

Lucene を使用してドキュメントのインデックスを作成しており、テキストから句読点とストップワードを削除するために SnowballAnalyzer を適用しようとしています。次のエラーが発生し続けます :(

IllegalAccessError: クラス org.apache.lucene.analysis.snowball.SnowballAnalyzer からメソッド org.apache.lucene.analysis.Tokenizer.(Ljava/io/Reader;)V にアクセスしようとしました

これがコードです。助けていただければ幸いです!!!! 私はこれで新しい..

public class インデクサー {

}

private void indexDocument(File someDoc) throws IOException {

} }

0 投票する
1 に答える
4432 参照

sql-server - SQLServer全文検索では結果が得られません

高度なサービスを備えたSQLServer2005ExpressEditionを使用しています。フルテキストを有効にして、次のようにカタログを作成しました。

次に、次のようにフルテキストインデックスを作成しました。

次のクエリを実行しました。

そして、次の結果が得られました。

1)0
2)24

FullTextインデックスにデータを入力するのに時間がかかる可能性があることを認識しています。しかし、多くの時間(12時間)にもかかわらず、私はまだ結果を得ることができません。次に、ObjectPropertyEx()関数を使用してさらに調査し、以下を実行しました。

これにより、次の結果が得られました。

TableFullTextBackgroundUpdateIndexOn 1
TableFullTextChangeTrackingOn 1
TableFulltextDocsProcessed 11024
TableFulltextFailCount 0
TableFulltextItemCount 4038
TableFulltextKeyColumn 1
TableFulltextPendingChanges 0
TableHasActiveFulltextIndex 1

次に、次のようにインデックスの新しい完全な母集団を作成しようとしました。

そして、私は次の警告を受け取ります:

Warning: Request to start a full-text index population on table or indexed view 'Cell' is ignored because a population is currently active for this table or indexed view.

私は次のように人口を更新しようとしました:

これにより、「コマンドは正常に完了しました。」というメッセージが返されましたが、全文検索で結果が得られません。

私は何が欠けていますか?全文検索を機能させるには何をする必要がありますか?

ありがとう、エラン