私はHDFS
(2つのDataNodes)を構築しました。のデータノードにデータを保存しましたHDFS
。
2つのデータノードを使用してバランスを取りながらデータを保存したいと思います。CLI
しかし、 (hadoop fs -put
)を使用したときに保存したデータノードは1つだけでした
誰かが解決策を持っていますか?データを2つの別々のデータとして正確に保存するにはどうすればよいですか?
レプリケーション係数が正しく設定されていて、実際に日付の使用のバランスを取りたい場合は、次のようにします。
hadoop balancer [-threshold <threshold>]
Hadoopのドキュメントページには、リバランサーに関する多くの情報(PDF形式)があります。
レプリケーション係数の設定方法を尋ねているようです。データノードが2つある場合、レプリケーション係数が2の場合、すべてのファイルが両方のノードに保存されます。これは、Hadoopconfディレクトリのhdfs-site.xmlで設定できます。設定したい:
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
コマンドを実行してsetrep
、特定のファイルまたはディレクトリのレプリケーション係数を変更することもできます。
hadoop fs -setrep -R 2 <path>
-Rはもちろん再帰的になります。