c# - Xapian vs Lucene.Net - アラビア語文書のテキスト検索

Question

C# .Net で大量のアラビア語コンテンツドキュメント (PDF および Doc ファイル) をテキスト検索するという問題に直面しています。

何度も何度も検索した後、私は2つの解決策を思いつきました、

まず、Lucene.Netと私は次の問題に直面しました。

1- Lucene.Net で使用されるアラビア語アナライザーで、これが見つかりました。動作するかどうかはまだわかりません。

2-ドキュメント（約6000のPDFおよびDocファイル）からテキストを抽出し、ikvmの助けを借りて.Netで使用するTikaを見つけました。ただし、このソリューションが機能することを考えると、パフォーマンスがどうなるかはわかりません。

次に、Xapianと私は omega ライブラリを利用するためにこのソリューションに移行しましたが、それでもいくつかの問題が見つかりました

1-xapianはアラビア語のコンテキストで動作しますか、それともアラビア語アナライザーも必要になりますか?もしそうなら、どうすればこの問題を回避できますか?

実際、アラビア語のコンテンツとほぼ大量のデータに関して、どのソリューションを使用するかを決めることはできません。

どんな助けや提案も大歓迎です。

ありがとう、

サメール

score 0 · Accepted Answer

nLucene を使用する場合は、アラビア語アナライザーを作成する必要がありますが、Im はSolrを使用しており、アラビア語で正常に動作しています。このトピックをチェック

1 に答える 1