スクリプトを HDFS (Hadoop) に変換していますが、次のコマンドがあります。
tail -n+$indexedPlus1 $seedsDir/*url* | head -n$it_size > $it_seedsDir/urls
HDFS では、-get を使用してファイルを取得する必要があり、これは機能します。
bin/hadoop dfs -get $seedsDir/*url* .
ただし、 $local_seedsDir/ urlに保存したかったことは言うまでもなく、ダウンロードしたファイル名が何であるかはわかりません。私は知ることができますか?
KISSは私にこう言います:
bin/hadoop dfs -get $seedsDir/*url* $local_seedsDir/urls
つまり、ファイルにローカルで URL として名前を付けるだけです。