1

インデックスを作成して検索する必要があるドキュメント、電子メール メッセージなどをいくつか (100 万以上) 持っています。各ドキュメントには異なるエンコーディングが含まれている可能性があります。

これを適切に行うには、どの製品 (または製品の構成) を学び、理解する必要がありますか?

私の最初の推測は Lucene ベースのものですが、これは私が学んでいる最中のものです。私の主な望みは、検索フロント エンドを同時に構築できるように、時間のかかるエンコード プロセスをできるだけ早く開始することです。これには、2 バイト文字の何らかの正規化が必要になる場合があります。

どんな助けでも大歓迎です。

4

4 に答える 4

1

すべてをUTF-8に変換し、正規化フォームDでも実行します。それはあなたの検索に役立ちます。

于 2010-11-20T04:07:00.923 に答える
1

あなたはティカを試すことができます。

于 2010-11-20T16:37:46.147 に答える
0

ドキュメント自体を変換する必要があることを暗示していますか? これは、特に大規模な異種コレクションでは、悪い考えのように思えます。

優れた検索エンジンは、堅牢なエンコーディング検出機能を備えています。Lucene があり、Solr はそれを使用します (Hadoop は検索エンジンではありません)。また、内部インデックス形式で正規化されたエンコーディングを使用しない検索エンジンを持つことは不可能だと思います。したがって、正規化は選択基準にはなりませんが、エンコーディング検出を試すことはできます。

于 2010-11-20T16:46:32.070 に答える
0

Solrを使用することをお勧めします。ExtractingRequestHandlerは、エンコーディングとドキュメント形式を処理します。Solr を使用して動作するプロトタイプを作成するのは比較的簡単です。DataImportHandlerを使用すると、ドキュメント リポジトリを Solr にインポートできます。

于 2010-11-21T09:45:03.530 に答える