unicode - インデックス作成のための Unicode データの正規化 (マルチバイト言語の場合): これを行う製品は? Lucene/Hadoop/Solr はありますか?

Question

インデックスを作成して検索する必要があるドキュメント、電子メールメッセージなどをいくつか (100 万以上) 持っています。各ドキュメントには異なるエンコーディングが含まれている可能性があります。

これを適切に行うには、どの製品 (または製品の構成) を学び、理解する必要がありますか?

私の最初の推測は Lucene ベースのものですが、これは私が学んでいる最中のものです。私の主な望みは、検索フロントエンドを同時に構築できるように、時間のかかるエンコードプロセスをできるだけ早く開始することです。これには、2 バイト文字の何らかの正規化が必要になる場合があります。

どんな助けでも大歓迎です。

score 1 · Accepted Answer

すべてをUTF-8に変換し、正規化フォームDでも実行します。それはあなたの検索に役立ちます。

score 1 · Accepted Answer

1

あなたはティカを試すことができます。

于 2010-11-20T16:37:46.147 に答える

score 0 · Accepted Answer

ドキュメント自体を変換する必要があることを暗示していますか? これは、特に大規模な異種コレクションでは、悪い考えのように思えます。

優れた検索エンジンは、堅牢なエンコーディング検出機能を備えています。Lucene があり、Solr はそれを使用します (Hadoop は検索エンジンではありません)。また、内部インデックス形式で正規化されたエンコーディングを使用しない検索エンジンを持つことは不可能だと思います。したがって、正規化は選択基準にはなりませんが、エンコーディング検出を試すことはできます。

score 0 · Accepted Answer

Solrを使用することをお勧めします。ExtractingRequestHandlerは、エンコーディングとドキュメント形式を処理します。Solr を使用して動作するプロトタイプを作成するのは比較的簡単です。DataImportHandlerを使用すると、ドキュメントリポジトリを Solr にインポートできます。

unicode - インデックス作成のための Unicode データの正規化 (マルチバイト言語の場合): これを行う製品は? Lucene/Hadoop/Solr はありますか?

4 に答える 4

Related

Reference