0

ハイブを使用してエラスティック検索インデックスを作成しました。ここには、すべての生データをロードする 1 つの一時テーブルがあります。そのテーブルからいくつかの基準でいくつかのデータを選択し、それらをエラスティック検索インデックスと統合されたテーブルに挿入します。

インデックスの作成後、ES とエラスティック サーチ インデックスが統合されたテーブルで、ハイブ テーブル (同じ基準でメイン テーブル内) のカウントを比較しています。見つかった数は同じではありません。

ES インデックスでは: 4663296 ES と統合されたテーブルでは: 4663296 (ES と同じ) ですが、ハイブでは: 4611296 (同じ基準のメイン テーブル) - ES より少ない

では、この数が ES の方が多い理由を教えてください。同じはずですよね?

ありがとう、ラックト

4

1 に答える 1

0

ES にいくつかの重複レコードがあることがわかりました。

だから、私がやっていることは、IDを手動で追加することです(データ内の常に一意のキー)。カウントは同じです。

テーブル プロパティを 1 つ追加するだけです: TBLPROPERTIES('......., 'es.mapping.id' = 'field_name_of_the_unique_id'); ハイブテーブルの作成。

ありがとう

于 2014-08-06T13:13:43.107 に答える