C# .Net で大量のアラビア語コンテンツ ドキュメント (PDF および Doc ファイル) をテキスト検索するという問題に直面しています。
何度も何度も検索した後、私は2つの解決策を思いつきました、
まず、Lucene.Netと私は次の問題に直面しました。
1- Lucene.Net で使用されるアラビア語アナライザーで、これが見つかりました。動作するかどうかはまだわかりません。
2-ドキュメント(約6000のPDFおよびDocファイル)からテキストを抽出し、ikvmの助けを借りて.Netで使用するTikaを見つけました。ただし、このソリューションが機能することを考えると、パフォーマンスがどうなるかはわかりません。
次に、Xapianと私は omega ライブラリを利用するためにこのソリューションに移行しましたが、それでもいくつかの問題が見つかりました
1-xapianはアラビア語のコンテキストで動作しますか、それともアラビア語アナライザーも必要になりますか?もしそうなら、どうすればこの問題を回避できますか?
実際、アラビア語のコンテンツとほぼ大量のデータに関して、どのソリューションを使用するかを決めることはできません。
どんな助けや提案も大歓迎です。
ありがとう、
サメール