1

s3に保存されている大量のテキストファイルを処理したい。残念ながら、メソッド コードが大きくなりすぎて java.lang.RuntimeException がスローされるため、単純に MultipleTextLineFiles ソースと一緒にリストを使用することはできません。

私の最後の試みは、ファイルのリストを含むテキストファイルを含むjarファイルを出荷することでした。これは、「scala.io.Source.fromURL(getClass.getResource(filename)).getLines().toSeq」を使用して読み取られますが、これは失敗しますNoSuchElementException がスローされます。

助言がありますか?

4

2 に答える 2

0

すべてのファイルが同じフォルダーにあり、それらすべてを処理する必要がある場合は、フォルダー パスを入力引数として TextLine に渡すだけです。その中のすべてのファイルを読み取ります (ただし、s3 の場合は、EMR でジョブを実行する必要があります)。

于 2014-05-09T17:27:32.283 に答える