問題タブ [full-text-indexing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
postgresql - PostgreSQL : Gin の最大フィールド サイズ
私は現在、多くの FullText インデックス作成ソリューションを評価しており、ネイティブの postgres FT で遊んでいます。
GIN インデックスを使用してデータのインデックスを作成しようとしています。しかし、フィールド サイズには制限があり、データの挿入中に「巨大なタプル」というエラーが発生します。
私が理解している限り、それはフィールドサイズに直接関係しています。しかし、この制限は私が見つけたどのドキュメントにも書かれていないので、誰かがこの制限を知っていますか?それを変更する方法があれば?
ありがとう
PS : postgresql のソース コードでこの定義を見つけました
((BLCKSZ - SizeOfPageHeaderData - \ MAXALIGN(sizeof(GinPageOpaqueData))) / 3 - sizeof(ItemIdData))
。
sql - SQLフリーテキストなど
'%fish%'のように使用すると、次のようになります。
水族の金魚のフレーク
しかし、Contains([Description]、'"fish *"')を使用すると、何かできることはありませんか?
基本的には、魚という言葉が含まれているものはどこにでも返却したいと思います。
c# - 共有ホスティング上の Lucene.NET
共有ホスティング環境で Lucene.NET を動作させようとしています。codeproject の Mascix は、godaddyでこれを動作させる方法をここで概説しています。私はisqsolutionsでこれを試みています。
彼が投稿した両方の例は、私のローカル マシンで正常に動作し、共有ホスティング サーバーで同じエラーをスローします。
次のように、web.config に Lucene.NET アセンブリへの直接参照を追加してみました。
しかし、これも独自のエラーをスローします。私の質問は次のとおりだと思います:単純なものが不足していますか、それともサーバー側の設定によりこれがまったく機能しなくなる可能性がありますか?
mysql - MySql フルテキスト インデックスを表示するにはどうすればよいですか?
- MySql 全文検索はインデックス作成を使用しますか?
- その場合、インデックス エントリ テーブルを表示するにはどうすればよいですか?
VIEW クエリでインデックス統計を表示できます。しかし、インデックス レコード エントリ テーブルを表示したかっただけです。
sql - HTML/XMLデータのSQL全文検索
cmsデータベース(SQL 2005)にSQLフルテキストカタログがあります。データベースは、全文カタログの一部であるntext列内にCMSページのコンテンツを保持します。予想どおり、検索ではページコンテンツ内のxmlタグが考慮されるため、「H1」を検索すると、H1タグが付いたすべてのページが返されます。
全文検索内のフィルターを適用して、xmlタグ内のデータのみにインデックスを付けることは可能ですか?
SQL全文検索で.htmlバイナリタイプまたはxml列のインデックス作成/検索が可能であることがわかります。ただし、ご覧のとおり、セットアップはこれとは少し異なります。
どうもありがとう、
アダム
words - 多くの記事の単語リスト - 用語マトリックス
トルコ語で約 15 万の記事があります。自然言語処理の研究に記事を使用します。記事を処理した後、記事ごとに単語とその頻度を保存したい。
現在RDBSに保存しています。
私は3つのテーブルを持っています:
Articles -> article_id,text
Words -> word_id, type, word
Words-Article -> id, word_id, article_id, frequency (word_id のインデックス、 article_id のインデックス)
問い合わせます
- 記事内のすべての単語
- 記事ごとに 1 つの単語の頻度
- すべての記事およびどの記事での単語の出現
words-article テーブルに何百万もの行があります。このプロジェクトでは常に RDBS を使用していました。mysql から始めて、現在は oracle を使用しています。しかし、私は oracle を使用したくなく、mysql よりも優れたパフォーマンスが必要です。
また、4 GB RAM を搭載したマシンでこのジョブを処理する必要があります。
簡単に言えば、文書と用語のマトリックスを保存し、それに対してクエリを実行する方法は? 性能が必要です。「キー値データベース」はパフォーマンスでmysqlを打ち負かすことができますか? または、mysql に勝るものは何ですか?
あなたの答えのプログラミング言語が依存している場合、私はpythonでコードを書いています。ただし、C/C++ 、Java は問題ありません。
java - Google App Engine に最適な Java テキスト インデックス ライブラリはどれですか?
現時点では、コンパスがこの作業を処理できることを知っています。しかし、コンパスを使用したインデックス作成はかなり高価に見えます。より軽い代替品はありますか?
full-text-indexing - Lemur がファイルのインデックスを作成しようとすると、ドキュメントの形式が正しくないというエラーが表示される
ここでキツネザルのインデックス作成チュートリアルを少し行ってきました。
http://www.lemurproject.org/tutorials/begin_indexing-1.php
一見適切にフォーマットされたファイルを含む 1 つのドキュメントを含む "コーパス" フォルダーを作成しました。
次の構成ファイルを作成しました。
ただし、実行すると:
不可解な例外が発生します。
ソース内の関連する関数を見ましたが、特に何も飛び出していません。何か案は?
sql-server - SQL Server で全文索引を使用すると、パフォーマンスが向上しますか? どこでも、またはいくつかの状況で?
NHibernate ORM を使用して大きなアプリケーションを作成します。DB レベルで全文索引付けを使用すると、アプリケーションのパフォーマンスに利点がありますか? 検索のパフォーマンスが向上しますか?
sql-server - SQLServerのitemcountプロパティは何と一致する必要がありますか
itemcount
プロパティがインデックス付けされた行の数と正確に一致しない場合、それは問題ですか?完全なフルテキストインデックスがあることを確認できる数値的な方法はありますか?
更新:プロパティfulltextcatalogproperty('database','itemcount')
は、インデックス付きテーブルの行数と等しくありません。数千ずれています。これは、インデックスに情報が不足していることを示していますか、それともitemcountが完全に一致しないと予想しますか?