4

Hadoop を使用して、Amazon S3 に Hadoop シーケンス ファイルとして保存されている Google Books の ngram を処理しています。

Hadoop には、ファイル名に s3:// または s3n:// プロトコルを指定するだけで、(S3 バケットを仮想「ファイルシステム」として使用して) S3 から読み取る機能が含まれています。

残念ながら、AWS アクセス キーとシークレット キーを設定する必要があります。読み取りたいバケットは公開されているため、使用するキーがありません。自分のキーを使用すると、ngrams バケットから読み取ることができません (自分のアカウントに属していないため)。

ファイルを自分で再ホストせずに、Hadoop からパブリック S3 バケットに保存されているファイルを使用するにはどうすればよいですか (数テラバイトのデータがあるため、非常に高価になります)。

4

1 に答える 1

-1

s3n://データが公開されている場合、バリアントを使用しないため、AWS アクセスまたは秘密鍵は必要ありません。代わりに、で始まるパブリック URL バリアントを使用します。http://*.s3.amazonaws.com/*

パブリック URL が利用できない場合は、AWS アクセス キーとシークレット キーのそれぞれに空白の文字列を渡すだけで、何が起こるかを確認できます。

于 2012-06-20T21:03:14.970 に答える