問題タブ [xapian]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
django - 私の Django 検索機能には、DB-full-text モジュールまたは Haystack モジュールのどちらが適していますか?
Python3とPostgresqlでDjangoを使用しています
Haystack は Elastic Search を使用する (そして Java が嫌いです) と読んだことがありますが、Xapian-Haystack は Python3 では動作しないようです (しかし、以前に Xapian について聞いたことがあり、そのように思います)。
djorm-ext-pgfulltext はデータベースの全文検索モジュールですが、以前のオプションと効率の点でどのように違うのか、私にはよくわかりません。
(3. 単純な検索モジュールを作成するオプションは、最も効率が悪いと思います。)
モジュールのリストは、 https ://www.djangopackages.com/grids/g/search/ に表示されます。
full-text-search - Xapian Omega を使用した検索 - ワイルド カードまたは正規表現を使用
私たちは研究アーカイブのさまざまな検索エンジンに直面しており、Xapian-Omega のドキュメントを閲覧した後、Omega オプションがいくつかの興味深い検索オプションを備えた適切なソリューションであると思われるため、試してみることにしました。
Xapian-Omega を Linux サーバー (Deb 7) にインストールし、セットアップをテストして成功しました。ただし、Xapian-Omega でワイルド カードまたは正規表現を使用する方法、または使用できるようにする方法については不明です。
Xapian の場合、ワイルド カード オプション "QueryParser flags" を有効にする必要があることを読みました。すなわち。1つか2つの例で説明するか、ページを示してください。
しかし、Omega CGI の例に関する情報はあまり見当たりませんでした。この後者はうまく動作しますが、ワイルド カード オプション (一般的なワイルド カードの * や単一文字の ? など) は、デフォルトでは期待どおりに機能しないようで、ステミングや部分文字列などが機能している場合でも、便利です。
例: 標準的な単純なワイルド文字検索を特定の精度で使用できるようになれば興味深いでしょう。単一文字の場合
Omega で Regexp を認識できますか? 例: sep[ae]r[ae]te(\w+)? または、電子メールやクレジット カード番号などの構造化された形式や、研究論文などの特定の数式タイプを検索します。
Olly Betts からの以前のメモ (Dev Mailing List) では、これに関する 1 つの提案はインデックス ファイルを grep することでしたが、これは Omega の RAD の利点を無効にします。
ワイルドカードまたは正規表現を使用した Omega を使用した検索の例は、非常に高く評価されます...このテーマに関する情報が、Xapian のみを使用して高度な検索を開発する方法を示す例とともに十分に提示されているページの表示でさえ、大歓迎です (PHPまたはおそらくPython)。
(インデックス サイズのサイズやアーカイブのインデックス作成時間の最終的な大幅な増加については、現時点では懸念していません)
perl - Perl を使用して Xapian データベースから特定のデータを取得する
Xapian データベースから検索結果を取得するための perl スクリプトを作成しています。
Search::Xapianモジュールを使用して、基本的なXapian Query Exampleを試しました。この基本的なプログラムでは、クエリを作成し、関連性によって並べ替えられた結果の配列を取得できます。私の問題は、 get_data()
メソッドがドキュメントからのデータ全体 (url、ファイル名、要約、作成者など) を文字列として混ぜ合わせて返すことです。
各データを 1 つずつ取得する方法をCPAN モジュールで検索しましたが、見つかりませんでした。
ファイル名、URL、作成者などを 1 つずつ取得して、特定の変数に入れることは可能ですか?