FTP サーバー (F [ftp])、Linux ボックス (S [スタンドアロン])、および Hadoop クラスター (C [クラスター]) があります。現在のファイル フローは F->S->C です。S をスキップしてパフォーマンスを向上させようとしています。
現在の流れは次のとおりです。
wget ftp://user:password@ftpserver/absolute_path_to_file
hadoop fs -copyFromLocal path_to_file path_in_hdfs
私は試した:
hadoop fs -cp ftp://user:password@ftpserver/absolute_path_to_file path_in_hdfs
と:
hadoop distcp ftp://user:password@ftpserver/absolute_path_to_file path_in_hdfs
両方ともハングします。ジョブである distcp はタイムアウトによって強制終了されます。ログ (hadoop job -logs) は、タイムアウトによって強制終了されたとだけ述べています。Cのいくつかのノードからftpからwgetしようとしましたが、うまくいきました。その理由と、それを理解するためのヒントは何でしょうか?