hadoop - Hadoop からパブリック S3 バケットにアクセスできない

Question

Hadoop を使用して、Amazon S3 に Hadoop シーケンスファイルとして保存されている Google Books の ngram を処理しています。

Hadoop には、ファイル名に s3:// または s3n:// プロトコルを指定するだけで、(S3 バケットを仮想「ファイルシステム」として使用して) S3 から読み取る機能が含まれています。

残念ながら、AWS アクセスキーとシークレットキーを設定する必要があります。読み取りたいバケットは公開されているため、使用するキーがありません。自分のキーを使用すると、ngrams バケットから読み取ることができません (自分のアカウントに属していないため)。

ファイルを自分で再ホストせずに、Hadoop からパブリック S3 バケットに保存されているファイルを使用するにはどうすればよいですか (数テラバイトのデータがあるため、非常に高価になります)。

score -1 · Accepted Answer

s3n://データが公開されている場合、バリアントを使用しないため、AWS アクセスまたは秘密鍵は必要ありません。代わりに、で始まるパブリック URL バリアントを使用します。http://*.s3.amazonaws.com/*

パブリック URL が利用できない場合は、AWS アクセスキーとシークレットキーのそれぞれに空白の文字列を渡すだけで、何が起こるかを確認できます。

1 に答える 1