Googleクラウドプラットフォームでsparkを使用しています。どうやら filesystem からファイルを読み取っているようですgs://<bucket>/dir/file
が、ログ出力プロンプト
FileNotFoundException: `gs:/bucket/dir/file (そのようなファイルまたはディレクトリは存在しません)
行方不明/
は明らかに問題です。どうすればこれを解決できますか?
これは私のコードです:
val files = Array(("call 1","gs://<bucket>/google-cloud-dataproc-metainfo/test/123.wav"))
val splitAudioFiles = sc.parallelize(files.map(x => splitAudio(x, 5, sc)))
def splitAudio(path: (String, String), interval: Int, sc: SparkContext): (String, Seq[(String,Int)]) = {
val stopWords = sc.broadcast(loadTxtAsSet("gs://<bucket>/google-cloud-dataproc-metainfo/test/stopword.txt")).value
val keyWords = sc.broadcast(loadTxtAsSet("gs://<bucket>/google-cloud-dataproc-metainfo/test/KeywordList.txt")).value
val file = new File((path._2))
val audioTitle = path._1
val fileFormat: AudioFileFormat = AudioSystem.getAudioFileFormat(file)
val format = fileFormat.getFormat