0

C# .Net で大量のアラビア語コンテンツ ドキュメント (PDF および Doc ファイル) をテキスト検索するという問題に直面しています。

何度も何度も検索した後、私は2つの解決策を思いつきました、

まず、Lucene.Netと私は次の問題に直面しました。

1- Lucene.Net で使用されるアラビア語アナライザーで、これが見つかりまし。動作するかどうかはまだわかりません。

2-ドキュメント(約6000のPDFおよびDocファイル)からテキストを抽出し、ikvmの助けを借りて.Netで使用するTikaを見つけました。ただし、このソリューションが機能することを考えると、パフォーマンスがどうなるかはわかりません。

次に、Xapianと私は omega ライブラリを利用するためにこのソリューションに移行しましたが、それでもいくつかの問題が見つかりました

1-xapianはアラビア語のコンテキストで動作しますか、それともアラビア語アナライザーも必要になりますか?もしそうなら、どうすればこの問題を回避できますか?

実際、アラビア語のコンテンツとほぼ大量のデータに関して、どのソリューションを使用するかを決めることはできません。

どんな助けや提案も大歓迎です。

ありがとう、

サメール

4

1 に答える 1

0

nLucene を使用する場合は、アラビア語アナライザーを作成する必要がありますが、Im はSolrを使用しており、アラビア語で正常に動作しています。このトピックをチェック

于 2011-07-14T07:01:08.523 に答える