Hadoop を使用して、Amazon S3 に Hadoop シーケンス ファイルとして保存されている Google Books の ngram を処理しています。
Hadoop には、ファイル名に s3:// または s3n:// プロトコルを指定するだけで、(S3 バケットを仮想「ファイルシステム」として使用して) S3 から読み取る機能が含まれています。
残念ながら、AWS アクセス キーとシークレット キーを設定する必要があります。読み取りたいバケットは公開されているため、使用するキーがありません。自分のキーを使用すると、ngrams バケットから読み取ることができません (自分のアカウントに属していないため)。
ファイルを自分で再ホストせずに、Hadoop からパブリック S3 バケットに保存されているファイルを使用するにはどうすればよいですか (数テラバイトのデータがあるため、非常に高価になります)。