問題タブ [full-text-indexing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
17468 参照

oracle - Oracle Textの索引付けを高速化するか、ロード時間の短い場合にのみインデクサーを動作させる

Oracle Text CTXSYS.CONTEXT 索引を使用して、メタ情報を含む約50万行の索引を作成しています。情報は、実行時にインデクサーが呼び出すプロシージャによって結合される 2 つのテーブルに分散されます (関数インデックス)。

ローカル マシン (単純なデュアルコア ノートブック) で CREATE INDEX を実行すると、約 3 分でインデックスが作成されます。8 コアと 16G の RAM を搭載した Solaris 上で動作する DB サーバーでは、同じ (まったく同じ) データのインデックスを作成するのに約 24 時間かかります。

サンプル コード: これは、2 つのテーブルと 3 つの列のインデックス フィーダーです。

これらは好みです

次に、インデックスを作成します

データの大部分は、簡単なタイトルまたは著者名 + 1k 未満のテキストによる短い説明で構成されます。

関連するメモリ設定と PARALLEL パラメータを少し試してみましたが、成功しませんでした。だからここに私の質問があります:

  • インデックス作成プロセスを一時停止して再開する方法はありますか (私は CTX_SYS ロールを手元に持っています)。
  • どのパラメータを微調整できるか(特にメモリサイズ)のヒントはありますか?
  • テキスト索引をエクスポートおよびインポートできますか? -> 次に、ローカル マシンでインデックス作成を実行し、それをサーバーにコピーするだけです。
  • インデクサーは「低い優先度」で実行できますか?
  • ロック操作によってインデクサーが乱れた可能性があります (他のユーザーが並行してアクセスするステージング マシンです)。関連するテーブルをロックし、インデックスを作成して後でロックを解除する方法はありますか?
0 投票する
1 に答える
449 参照

mysql - 全文索引検索の作成

ブログを作成しました。MySQL データベース内の特定のテーブルを検索し、別の検索ページでユーザーに結果を返したいと考えています。Google CSE を使用したくありません。自分のサイト用にこれを作成するにはどうすればよいですか。StackOverflow.com で、友人からの投稿を見つけました。その中で、彼は自分の効率を高めたいと考えていました。彼の検索エンジンを自分のサイトに実装するにはどうすればよいですか?

彼のコード -ここ

0 投票する
1 に答える
304 参照

sql-server - 特定の行を指定して、フルテキスト インデックスから関連する単語のリストを取得することは可能ですか?

私たちのシステムで受信テキストの自動タグ付けを行いたいのですが、全文索引が、索引付けされた行を指定してランク付けされた単語のリストを提供できるかどうか疑問に思っていました。

そうでない場合、これを行う方法について何か提案はありますか? 私たちはすでに自動タグ付けのシステムを用意していますが、その方法はかなり力ずくで(別名、遅い)、常に適切な単語リストを生成するとは限りません。

0 投票する
1 に答える
857 参照

sql - FULLTEXT キーが長すぎます

MySQL データベースの Title、Edition、Author に FULLTEXT インデックスを追加しようとすると、次のエラーが発生します。

指定されたキーが長すぎます。キーの最大長は 1000 バイトです

列は次のとおりです。

それらのどれもユニークではありません.. 3 つすべての組み合わせでさえもユニークではありません. データベースの主キーは ISBN です。

この FULLTEXT インデックスを追加する理由は、人々がタイトル、エディション、または著者を含むキーワードを使用して書籍を検索できるようにするためです。

0 投票する
1 に答える
5096 参照

full-text-search - Apachecassandraクエリ/全文検索

私はapacheのcassandraプロジェクトで遊んでいます。かなりの読み込みを行いました。データの単一セットとバッチセットの挿入、キーに基づく単一データセットと複数データセットの取得など、かなり複雑な例がいくつかあります。私が見た記事のいくつかは含まれています

http://www.rackspacecloud.com/blog/2010/05/12/cassandra-by-example http://github.com/digg/lazyboy http://arin.me/blog/wtf-is-a- supercolumn-cassandra-data-model http://www.sodeso.nl/?p=80

説明されている概念をかなりよく理解しており、簡単なアプリも実装しています。

たとえば、クエリがユーザーが入力した検索用語である場合に、クエリを実行する方法については、どの記事にも説明されていません。

誰かがそのようなクエリを実行する方法を知っているか、提案することができますか?または、検索可能なインデックス、全文検索、またはリモートで閉じるものを作成する方法はありますか?

0 投票する
4 に答える
1971 参照

sql-server-2008 - TIFFIFilterがVARBINARY列のテキストを正しく読み取っていません

リンクテキストWindows2008ServerR2に組み込まれているTIFFIFilterを、SQLServer2008の全文検索で使用したい...R2も。

サーバーマネージャーを介してフィルターをインストールし、[コンピューターの構成]->[管理用テンプレート]->[OCR]の[ローカルグループポリシー]設定を[TIFFドキュメントのすべてのページに対してOCRを実行するように強制する]を更新しました。

また、フルテキストカタログと「FileData」というテーブルを作成しました。これは次のようになります。

PDFやWordDOCなどのファイルをそのテーブルに挿入すると、後で全文検索を使用してファイル内のキーワードをヒットできます。

非常にクリアなテキスト(1024 x 768 ...約12ワード)で大きな巨大なTIFFファイルを作成し、それをFileDataテーブルにインポートしました。私はその中のすべての単語を見つけることができます。

ただし、メーカーのデータシートのような「実際の」TIFFファイルを使用すると、キーワードを検索したときに結果がゼロになります。理由はわかりません。SQLServerを使用したオンラインでのトラブルシューティングはあまりありません。

さまざまな種類の圧縮を使用して、圧縮を使用せずに.TIFFファイルを保存しようとしましたが、うまくいきませんでした。私のテストファイルのテキストはCRYSTALでクリアで、まだかなり大きいです。ファイルの明瞭さが問題であるとは想像できませんが、それは可能だと思います。

比較するものがあるので、次の2つの画像を取得してインポートしました。

作業サンプルファイル 壊れたサンプルファイル

作業サンプルの結果は本当に良いです。これらは、フルテキストインデックスの作業サンプルからのキーワードです。 $3.50©0004081989 2010 21 21:35:42 235 282 3116 3702 40 4810989豊富な抽象的付随する獲得行為アクションの利点エージェンシーアルゴリズムアルゴリズムすでに量アムステルダム分析アン出現アプリケーションアーバーarnficiojartficia1割り当てbvベースの基本ブッカー旅団バケット構築bv機能慎重に変化する特性チェッカー分類器分類器分類器クロージングコグニティブ比較競合する複雑な複雑さ複雑さコンピューターが直面する混乱は、継続的に継続的に考案された信用治療を検討するデータまともな定義された定義設計設計された発見の議論を考案する生態学的経済の努力の間に邪魔するelsevierファイルの終わりエンジニアリング環境環境エラーイベントの例展示経験表現された現存する拡張機能顔面実行可能なファイル発射最初の流れ次のフォーマットゲームは一般的な遺伝的与える目標を生成するゴールドバーグ良いホリアッドしかし、オランダは、暗黙のうちに不正確に情報インテリジェンスに影響を与える画像に没頭しているという仮説を立てています。s大規模なメッセージmimichigannew nn0004 nn08 nn1989 nn2010 nn21 nn235 nn282 nn3116 nn3702 nn3d5 $ nn40nn48109nn89騒々しい北のnos斬新なノベルティ入手可能すばやくランダムにまれに現実的な強化繰り返し再印刷された要件網膜レビューロボットのルールルールを改訂科学シーケンスセット非常に単純で単純な小さなまばらなシステムシステムタグ付けされた技術理論thortiff時間tt21352つの典型的な米国の大学を私たちに2回ねじる不思議な世界のない私たちアメリカのビジュアルvolに大学不思議な世界のない私たちアメリカのビジュアルvolに大学

しかし、壊れたサンプルからの結果はただ...まあ、空いている。実際のTIFF画像からの1つの単語ではありません: 08 20102121:49:22ファイル形式の画像の終わりnn08nn2010nn21タグ付きtifftt2149

誰かが次に何を試すべきかについて何か考えを持っているなら、私はすべての耳です。

0 投票する
1 に答える
745 参照

full-text-search - ネットワークドライブのインデックス作成頻度

私が働いている会社には、ユーザーのドライブにマップされた複数のネットワークドライブに保存および共有されている何百万ものドキュメントがあります(例:d:\から\ server1 \など)。

私が実装したいのは、ネットワークドライブをクロールし、ユーザーがフルテキストインデックスを使用してファイルをすばやく見つけられるようにすることです。

私の現在のインデックス戦略Lucene.net

しかし、ネットワーク上を移動するパケットは言うまでもなく、インデックスを作成するドキュメントが何百万もあるため、ネットワークドライブのインデックスを作成する頻度がわかりません。

したがって、問題は、インデックス作成頻度をどのように実装する必要があるかということです。
私は例としてGoogle/Windowsデスクトップ検索インデックスの頻度について調査を行ってきましたが、成果はありませんでした。

0 投票する
1 に答える
2201 参照

full-text-search - 全文検索用のサンプルデータベース

PostgreSQL、SQLServer、Luceneの全文検索インデックスでベンチマークを実行したいと考えています。

クエリを実行するのに適した大きなサンプルデータベースをどこで見つけるかについてのアイデアはありますか?

よろしくお願いします。

0 投票する
1 に答える
814 参照

pdf - PDF ドキュメントのインデックス作成

PDFドキュメントをインデックス化する最良の方法は何ですか? PDF ドキュメントを txt に変換してインデックスを作成する必要がありますか、それとも PDF ファイルのインデックスを作成するためのより良い方法がありますか?

0 投票する
3 に答える
3240 参照

php - MySQL全文検索が遅い

このクエリを使用して、MySQLデータベースで全文検索を実行しています。

結果は非常に関連性がありますが、検索は非常に遅く、テーブルが大きくなるにつれてますます遅くなっています。

テーブル統計:

質問-400レコード

インデックス

  • プライマリBTREE-id
  • BTREE-uniquecode
  • BTREE-質問日
  • BTREE-ユーザーID
  • フルテキスト-質問テキスト
  • フルテキスト-uniquecode

回答-3,635レコード

インデックス

  • PRIMARY-BTREE-id
  • BTREE-回答日
  • BTREE-questionid
  • フルテキスト-アンサーテキスト

answer_mapping -4,228レコード

インデックス

  • PRIMARY-BTREE-id
  • BTREE-answerid
  • BTREE-questionid
  • BTREE-ユーザーID

タグ-1,847レコード

インデックス

  • PRIMARY-BTREE-id
  • BTREE-タグ
  • フルテキスト-タグ

タグマッピング-3,389レコード

インデックス

  • PRIMARY-BTREE-id
  • BTREE-tagid
  • BTREE-questionid

なんらかの理由でタグマッピングタグを削除すると、検索が大幅に高速化されます。

このクエリを高速化するためのヒントはありますか?

前もって感謝します!