1

spark から hdfs シンボリック リンクの複数のパーツ ファイルを読み込もうとしています。パスが物理的な場合、パスから複数のファイルを読み取るためにワイルドカード(*)を使用できます。 sparkContext.textFile(/some/path/file_123321_00/part-r-000*)

しかし、「フルセット」と呼ばれるhdfs上のこのフォルダーへのシンボリックリンクを作成しました。
/some/path/ fullset /part-r-000* を使用すると、パスの検出に失敗します。hadoop fs -ls私は両方のパスを試しました。最初のものは機能しますが、シンボリックリンクのあるものは期待どおりに機能しません。
そのようなシンボリックリンクを作成できる MapR ディストリビューションを使用していますが、Spark からそれを読み取る最良の方法が何であるかはわかりません。シンボリック リンクを作成する理由は、最新のデータ セットを参照するためです。どんな提案でも大歓迎です。ありがとう

4

1 に答える 1