フォルダーとファイルで構成されたデータセットがあります。フォルダー/ファイル構造自体は、データ分析にとって重要です。
データセットの構造:
folder1
+-----file11
+-----column1
+-----column2
すべてのファイルには、1 つのオブジェクトを記述するデータが含まれています。ファイルの形式は一貫しています。基本的に、2 つの列を持つ csv ファイルです。2 つの列は、結果のオブジェクトで一連のタプルとして表される必要があります。
ファイルのサイズはかなり小さいです。20kbまでです。各フォルダには約 200 個のファイルが含まれています。
目的の出力オブジェクトは次のようになります。
{
a: "folder1", // name of parent folder
b: "file11", // name of content file
c: Seq[(String, String)] // content of file1
}
Scala でこのデータ セットの読み取りを処理するにはどうすればよいですか?