問題タブ [xapian]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
833 参照

c# - Xapian vs Lucene.Net - アラビア語文書のテキスト検索

C# .Net で大量のアラビア語コンテンツ ドキュメント (PDF および Doc ファイル) をテキスト検索するという問題に直面しています。

何度も何度も検索した後、私は2つの解決策を思いつきました、

まず、Lucene.Netと私は次の問題に直面しました。

1- Lucene.Net で使用されるアラビア語アナライザーで、これが見つかりまし。動作するかどうかはまだわかりません。

2-ドキュメント(約6000のPDFおよびDocファイル)からテキストを抽出し、ikvmの助けを借りて.Netで使用するTikaを見つけました。ただし、このソリューションが機能することを考えると、パフォーマンスがどうなるかはわかりません。

次に、Xapianと私は omega ライブラリを利用するためにこのソリューションに移行しましたが、それでもいくつかの問題が見つかりました

1-xapianはアラビア語のコンテキストで動作しますか、それともアラビア語アナライザーも必要になりますか?もしそうなら、どうすればこの問題を回避できますか?

実際、アラビア語のコンテンツとほぼ大量のデータに関して、どのソリューションを使用するかを決めることはできません。

どんな助けや提案も大歓迎です。

ありがとう、

サメール

0 投票する
1 に答える
972 参照

solr - Lucene/Solr、Whoosh、Sphinx、Xapian でのドキュメント検索

DOC、DOCX、HTML、および PDF のドキュメントを検索するために、Lucene/Solr、Whoosh、Sphinx、および Xapian を比較しています。Solr だけが、ドキュメントを直接インデックス化するドキュメント パーサー (Tika) を持つことが文書化されています。したがって、明らかに勝者のようです。

しかし、競争条件を公平にするために、私は代替案を検討するのが好きです. 他の人には直接ドキュメントのインデックス作成がありますか (私が見逃している可能性があります)? そうでない場合、簡単に実装できますか?それともSolrが圧倒的な選択肢ですか?

0 投票する
1 に答える
265 参照

python - haystack と xapian で検索しますか?

私はこの検索をしようとしてきました:

記事のタイトルは「助けて」

私のコードでは次のとおりです。

したがって、「help」、「me」、または「help me」を検索すると投稿が表示されますが、「me help」を検索しても表示されません。「me help」を検索しても投稿を取得したい。または、投稿のタイトルが「助けてください」で、「助けてください」を検索すると、投稿が表示されます...

だから私はstackoverflowで少し検索しました...そしてここに投稿に到達しました: Django + Haystack how to do this search

受け入れられた回答の2つの提案に従いました

しかし、私がしたとき:

「me help」を検索すると、「help」や「me」がないものも含め、すべての結果が得られました

私がしたとき:

'help'、'me'、'help me' の検索は機能しましたが、'me help' はまだ機能しませんでした。

答えは明らかだと思いますが、干し草の山は初めてです...では、クエリ(「ヘルプ」を検索)を取得して投稿(「ヘルプ」)を取得するにはどうすればよいですか?

0 投票する
1 に答える
170 参照

hierarchy - Xapianで用語プレフィックスを使用してカテゴリ階層を表す最良の方法は何ですか?

次の階層の例があると仮定します。

  • 私たち
    • ミシガン
      • デトロイト
      • グランドラピッズ
      • ランシング
    • ミネソタ
      • グランドラピッズ
      • ミネアポリス
      • セントポール
    • オハイオ
      • コロンバス
      • グランドラピッズ
      • サンダスキー

「ミシガン州グランドラピッズ」のドキュメントに接頭辞付きの用語を付けてインデックスを作成する方法は2つあります。

また

より直感的な結果が返されると考えて、2番目のアプローチを使用する傾向があります。つまり、ミシガン州グランドラピッズの検索条件を含む検索には、ミネソタ州とオハイオ州のドキュメントが含まれる可能性が低くなります。

ただし、このアプローチの2つの側面が気になります。まず、階層の各レベルの用語プレフィックスの作成と保守が間違っていると感じます。第二に、値の連結は、重みを使用するための代理のように見えます。

では、用語の接頭辞を使用して階層を表すための最良の方法は何ですか?

0 投票する
1 に答える
1504 参照

django - DjangoのHaystackとは何ですか?

Haystack、Whoosh、Xapianなどについて読んでいます。しかし、私はそれらが正確に何に使用されているのか、そしてそれらの間の関係は何であるのかを実際には理解していませんでした。たとえば、

そのアプリのコードに触れることなく、サードパーティのアプリでの検索を有効にします。

初心者にとって理解しやすい、素敵なリンクを提供するためにこれらが何に使用されているかを説明してもらえますか?どうも

0 投票する
3 に答える
7350 参照

python - django-haystack を使用して、テンプレート内の検索オブジェクトの総数をカウントします

バックエンド検索エンジンとして xapian と共に django haystack を使用しています。検索のファセットにFacetedSearchViewandを使用しています。ファイル内の にFacetedSearchForm渡しsearchquerysetました。FacetSearchViewurls.py

searchquerysetしかし問題は、テンプレートでアクセスできないことです。私がやりたいのは、searchqueryset見つかったオブジェクトの数を数えることだけです。

シェルでは S を使用してそれを実現できearchQuerySet().filter(content="foo").count()ましたが、テンプレートで同様に行うにはどうすればよいですか? ガイドしてください。検索に一致するオブジェクトの総数が必要です。

0 投票する
1 に答える
1535 参照

php - PHP 5.3+ を搭載した CentOS 6 上の xapian

CentOS 6 と PHP 5.3 がインストールされた 64 ビット サーバーがあります。

php-5.3.2-6.el6_0.1.x86_64

彼らのウェブサイトからRPMを使用してxapianをインストールしました

PHP から Apache 経由で xapian ライブラリを使用しようとすると、次のエラーが発生します。

22 行目の未定義関数dl()の呼び出し/usr/share/php/xapian.php

いくつかのグーグルの後dl()、PHP 5.3+では機能しなくなっていることがわかりました。で有効enable_dlにしましたがphp.ini、何もしていません。この問題の解決策はどこにも見つかりませんでした。現在CentOS 6を使っている人は少ないのではないでしょうか?

私に何ができる?

0 投票する
1 に答える
816 参照

ios - iOSでxapian、clucene、またはlucyをコンパイルして使用することは可能ですか?

iOSでxcodeを使用してXapianをコンパイルして使用したいのですが、これについて実験した人はいますか?出来ますか?

iOSで全文検索を実装するための他のオプションはありますか?私はS4luceneLib(Obj-Cで)を試しましたが、これは古いバージョンのluceneの移植版です。また、xapianのようにコンパイルできないCluceneとlucyをチェックしました。 iOS。

ヘルプとコメントをいただければ幸いです。

0 投票する
1 に答える
3356 参照

search - Xapian と Apache Solr の比較

Web サイトで優れた自然言語検索を実行しようとしており、Apache Solr と Xapian の利点を理解しようとしています。Xapian の方がセットアップが簡単なようです。どちらも優れた自然言語検索を提供しますか? 任意の洞察をいただければ幸いです。

0 投票する
1 に答える
779 参照

python - Django / Python でのステミングを含む多言語全文検索

現在、Django ベースの多言語プロジェクトで全文検索に Djapian + Xapian を使用しています。言語ごとにステミングを使用するために、言語ごとに異なる検索インデックスを作成します。Django 内部では、ユーザーの言語に基づいて、どのステミングとどの検索インデックスを使用するかを決定します。それは問題なく動作しますが、Djapian はもはや維持されていないようで、コードはどんどん壊れていきます。そこで、haystack に切り替えましたが、haystack は、必要な動的ステミングを提供していないようです。

haystack バージョン 1.x、バージョン 2.x、またはその他の Python/Django ベースのバックエンドで、この可能性を統合する方法はありますか?