1

Hadoop クラスターで権限管理を有効にしましたが、pig でジョブを送信する際に問題が発生しました。これはシナリオです:

1 - Hadoop/hadoop ユーザーがいます

2 - PIG スクリプトを実行する myuserapp/myuserapp ユーザーがいます。

3 - myuserapp が所有するパス /myapp をセットアップします

4 - pig.temp.dir を /myapp/pig/tmp に設定します

しかし、ジョブを実行しようとすると、次のエラーが発生しました。

job_201303221059_0009    all_actions,filtered,raw_data    DISTINCT    Message: Job failed! Error - Job initialization failed: org.apache.hadoop.security.AccessControlException: org.apache.hadoop.security.AccessControlException: Permission denied: user=realtime, access=EXECUTE, inode="system":hadoop:supergroup:rwx------

Hadoop ジョブトラッカーは、サーバーを起動するためにこの許可を必要とします。

私の Hadoop ポリシーは次のようになります。

<property>
<name>security.client.datanode.protocol.acl</name>
<value>hadoop,myuserapp supergroup,myuserapp</value>
</property>
<property>
<name>security.inter.tracker.protocol.acl</name>
<value>hadoop,myuserapp supergroup,myuserapp</value>
</property>
<property>
<name>security.job.submission.protocol.acl</name>
<value>hadoop,myuserapp supergroup,myuserapp</value>
<property>

私の hdfs-site.xml:

<property>
<name>dfs.permissions</name>
<value>true</value>
</property>

<property>
 <name>dfs.datanode.data.dir.perm</name>
 <value>755</value>
</property>

<property>
 <name>dfs.web.ugi</name>
 <value>hadoop,supergroup</value>
</property>

私のコアサイト:

...
<property>
<name>hadoop.security.authorization</name>
<value>true</value>
</property>
...

そして最後に私のmapred-site.xml

...
<property>
 <name>mapred.local.dir</name>
 <value>/tmp/mapred</value>
</property>

<property>
 <name>mapreduce.jobtracker.jobhistory.location</name>
 <value>/opt/logs/hadoop/history</value>
</property>

不足している構成はありますか? 制限された HDFS クラスターで複数のユーザーがジョブを実行している場合、どのように対処すればよいですか?

4

2 に答える 2

0

公平なスケジューラーは、マップ削減ジョブをユーザーとして実行するように設計されており、ユーザー/グループ用に分離されたプールを作成しますが、リソースは共有されています。一見すると、このスケジューラには、ジョブの実行に必要な場所で他のユーザーが実行/書き込みを許可しない特定のディレクトリのアクセス許可に関連するいくつかの問題があります。

したがって、1 つの解決策は、容量スケジューラを使用することです。

<property>
 <name>mapred.jobtracker.taskScheduler</name>
 <value>org.apache.hadoop.mapred.CapacityTaskScheduler</value>
</property>

キャパシティ スケジューラでは、多数の名前付きキューを使用します。各キューには、構成可能な数のマップおよびリデュース スロットがあります。また、キャパシティーの利点の 1 つは、ユーザーごとに実行中のタスクの割合を制限できることです。これにより、ユーザーはクォータでクラスターを共有できます。

于 2013-03-28T13:10:54.173 に答える