私のPIGクエリは以下のとおりです
emp = LOAD 'hdfs://master:9000/hrms/DimEmployee' AS (EmployeeID,OrganizationID,EmploymentType);
grouped = group emp by (OrganizationID, EmploymentType);
AggEmploymentType = FOREACH grouped GENERATE group.OrganizationID, group.EmploymentType,COUNT(emp.EmployeeID) as cnt;
DUMP AggEmploymentType;
以下は、上記の豚のクエリの段階的な説明です。
- タブ区切りの HDFS ファイルから 100097 レコードをロードします。
- 会社別、雇用状況別のレコードでグループ化
- EmployeeID でレコードをカウントします。
- 出力をダンプします。
上記のクエリを実行した後、Pig シェルは、100115 レコードを正常に読み取ったと述べています。
Pig クエリが正常に実行された後、次の 3 つの問題が発生します。
- pig が HDFS で利用可能なよりも多くのレコードを準備できる理由 (100115>100097)
- 「ACCESSING_NON_EXISTENT_FIELD 27 TIMES」という警告メッセージが表示される理由
- MySQL で同じグループ クエリを実行すると、結果のカウント差は 9 になります。
できるだけ早く私の問題を解決してください。私の豚、hadoop プロジェクトは、あなたの迅速な対応にかかっています。上記の問題により、過去 5 日間から影響を受けています