MapR Hadoop では、ユーザーが HDFS にアクセスしたり、プログラムに YARN を使用したりできるようにするには、クラスター内のすべてのノードに(同じ uid と gid で) 存在する必要がありました。これには、どちらのノードとしても機能しないクライアント ノードが含まれます。データ ノードまたはコントロール ノード (MapR には名前ノードの概念はありません)。これは Hortonworks HDP でも同じですか?
1 に答える
Hortonworksコミュニティサイトで次の回答を見つけました。
ユーザーは、クラスターのすべてのノードでアカウントを持つべきではありません。彼はエッジ ノードでのみアカウントを持つ必要があります。
新しいユーザーの場合、ユーザーがクラスターにアクセスする前に作成する必要があるディレクトリは 2 種類あります。
1- ユーザーのホーム ディレクトリ [Linux ファイルシステム上に作成されたディレクトリ。/家/]
2- ユーザー HDFS ディレクトリ [HDFS ファイルシステム上に作成されたディレクトリ。/ユーザー/]
... HDFSホームディレクトリを作成するだけです[ie. /user/]エッジ ノード [HDFS は特定のエッジ ノードとは何の関係もないように見えるため、ここでの意味がわからない]。linux で新しいユーザーのホーム ディレクトリを作成していなくても、クラスターで新しいユーザーでジョブを実行できます。
**更新: ユーザー @cricket_007 のコメントに基づくと、ユーザーは namenode サーバーにも存在する必要があるようです。これを明示的に述べているドキュメントに最も近いものは次のとおりです。
各ファイルまたはディレクトリ操作は完全なパス名を NameNode に渡し、アクセス許可チェックは各操作のパスに沿って適用されます。クライアント フレームワークは、ユーザー ID を NameNode への接続に暗黙的に関連付け、既存のクライアント API を変更する必要性を減らします。[...] たとえば、クライアントが最初にファイルの読み取りを開始するとき、ファイルの最初のブロックの場所を検出するために NameNode に最初の要求を行います。