問題タブ [xapian]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - Xapian vs Lucene.Net - アラビア語文書のテキスト検索
C# .Net で大量のアラビア語コンテンツ ドキュメント (PDF および Doc ファイル) をテキスト検索するという問題に直面しています。
何度も何度も検索した後、私は2つの解決策を思いつきました、
まず、Lucene.Netと私は次の問題に直面しました。
1- Lucene.Net で使用されるアラビア語アナライザーで、これが見つかりました。動作するかどうかはまだわかりません。
2-ドキュメント(約6000のPDFおよびDocファイル)からテキストを抽出し、ikvmの助けを借りて.Netで使用するTikaを見つけました。ただし、このソリューションが機能することを考えると、パフォーマンスがどうなるかはわかりません。
次に、Xapianと私は omega ライブラリを利用するためにこのソリューションに移行しましたが、それでもいくつかの問題が見つかりました
1-xapianはアラビア語のコンテキストで動作しますか、それともアラビア語アナライザーも必要になりますか?もしそうなら、どうすればこの問題を回避できますか?
実際、アラビア語のコンテンツとほぼ大量のデータに関して、どのソリューションを使用するかを決めることはできません。
どんな助けや提案も大歓迎です。
ありがとう、
サメール
solr - Lucene/Solr、Whoosh、Sphinx、Xapian でのドキュメント検索
DOC、DOCX、HTML、および PDF のドキュメントを検索するために、Lucene/Solr、Whoosh、Sphinx、および Xapian を比較しています。Solr だけが、ドキュメントを直接インデックス化するドキュメント パーサー (Tika) を持つことが文書化されています。したがって、明らかに勝者のようです。
しかし、競争条件を公平にするために、私は代替案を検討するのが好きです. 他の人には直接ドキュメントのインデックス作成がありますか (私が見逃している可能性があります)? そうでない場合、簡単に実装できますか?それともSolrが圧倒的な選択肢ですか?
python - haystack と xapian で検索しますか?
私はこの検索をしようとしてきました:
記事のタイトルは「助けて」
私のコードでは次のとおりです。
したがって、「help」、「me」、または「help me」を検索すると投稿が表示されますが、「me help」を検索しても表示されません。「me help」を検索しても投稿を取得したい。または、投稿のタイトルが「助けてください」で、「助けてください」を検索すると、投稿が表示されます...
だから私はstackoverflowで少し検索しました...そしてここに投稿に到達しました: Django + Haystack how to do this search
受け入れられた回答の2つの提案に従いました
しかし、私がしたとき:
「me help」を検索すると、「help」や「me」がないものも含め、すべての結果が得られました
私がしたとき:
'help'、'me'、'help me' の検索は機能しましたが、'me help' はまだ機能しませんでした。
答えは明らかだと思いますが、干し草の山は初めてです...では、クエリ(「ヘルプ」を検索)を取得して投稿(「ヘルプ」)を取得するにはどうすればよいですか?
hierarchy - Xapianで用語プレフィックスを使用してカテゴリ階層を表す最良の方法は何ですか?
次の階層の例があると仮定します。
- 私たち
- ミシガン
- デトロイト
- グランドラピッズ
- ランシング
- ミネソタ
- グランドラピッズ
- ミネアポリス
- セントポール
- オハイオ
- コロンバス
- グランドラピッズ
- サンダスキー
- ミシガン
「ミシガン州グランドラピッズ」のドキュメントに接頭辞付きの用語を付けてインデックスを作成する方法は2つあります。
また
より直感的な結果が返されると考えて、2番目のアプローチを使用する傾向があります。つまり、ミシガン州グランドラピッズの検索条件を含む検索には、ミネソタ州とオハイオ州のドキュメントが含まれる可能性が低くなります。
ただし、このアプローチの2つの側面が気になります。まず、階層の各レベルの用語プレフィックスの作成と保守が間違っていると感じます。第二に、値の連結は、重みを使用するための代理のように見えます。
では、用語の接頭辞を使用して階層を表すための最良の方法は何ですか?
django - DjangoのHaystackとは何ですか?
Haystack、Whoosh、Xapianなどについて読んでいます。しかし、私はそれらが正確に何に使用されているのか、そしてそれらの間の関係は何であるのかを実際には理解していませんでした。たとえば、
そのアプリのコードに触れることなく、サードパーティのアプリでの検索を有効にします。
初心者にとって理解しやすい、素敵なリンクを提供するためにこれらが何に使用されているかを説明してもらえますか?どうも
python - django-haystack を使用して、テンプレート内の検索オブジェクトの総数をカウントします
バックエンド検索エンジンとして xapian と共に django haystack を使用しています。検索のファセットにFacetedSearchView
andを使用しています。ファイル内の にFacetedSearchForm
渡しsearchqueryset
ました。FacetSearchView
urls.py
searchqueryset
しかし問題は、テンプレートでアクセスできないことです。私がやりたいのは、searchqueryset
見つかったオブジェクトの数を数えることだけです。
シェルでは S を使用してそれを実現できearchQuerySet().filter(content="foo").count()
ましたが、テンプレートで同様に行うにはどうすればよいですか? ガイドしてください。検索に一致するオブジェクトの総数が必要です。
php - PHP 5.3+ を搭載した CentOS 6 上の xapian
CentOS 6 と PHP 5.3 がインストールされた 64 ビット サーバーがあります。
php-5.3.2-6.el6_0.1.x86_64
彼らのウェブサイトからRPMを使用してxapianをインストールしました
PHP から Apache 経由で xapian ライブラリを使用しようとすると、次のエラーが発生します。
22 行目の未定義関数
dl()
の呼び出し/usr/share/php/xapian.php
いくつかのグーグルの後dl()
、PHP 5.3+では機能しなくなっていることがわかりました。で有効enable_dl
にしましたがphp.ini
、何もしていません。この問題の解決策はどこにも見つかりませんでした。現在CentOS 6を使っている人は少ないのではないでしょうか?
私に何ができる?
ios - iOSでxapian、clucene、またはlucyをコンパイルして使用することは可能ですか?
iOSでxcodeを使用してXapianをコンパイルして使用したいのですが、これについて実験した人はいますか?出来ますか?
iOSで全文検索を実装するための他のオプションはありますか?私はS4luceneLib(Obj-Cで)を試しましたが、これは古いバージョンのluceneの移植版です。また、xapianのようにコンパイルできないCluceneとlucyをチェックしました。 iOS。
ヘルプとコメントをいただければ幸いです。
search - Xapian と Apache Solr の比較
Web サイトで優れた自然言語検索を実行しようとしており、Apache Solr と Xapian の利点を理解しようとしています。Xapian の方がセットアップが簡単なようです。どちらも優れた自然言語検索を提供しますか? 任意の洞察をいただければ幸いです。
python - Django / Python でのステミングを含む多言語全文検索
現在、Django ベースの多言語プロジェクトで全文検索に Djapian + Xapian を使用しています。言語ごとにステミングを使用するために、言語ごとに異なる検索インデックスを作成します。Django 内部では、ユーザーの言語に基づいて、どのステミングとどの検索インデックスを使用するかを決定します。それは問題なく動作しますが、Djapian はもはや維持されていないようで、コードはどんどん壊れていきます。そこで、haystack に切り替えましたが、haystack は、必要な動的ステミングを提供していないようです。
haystack バージョン 1.x、バージョン 2.x、またはその他の Python/Django ベースのバックエンドで、この可能性を統合する方法はありますか?