問題タブ [hdfs]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nosql - シャーディングとDFS
シャーディング(MongoDBなど)と分散ファイルシステム(HBaseやHyperTableのHDFSなど)は、データベースがスケールアウトに使用するさまざまなメカニズムであると理解している限り、それらをどのように比較するのでしょうか。
hadoop - HDFS への並列コピー
NFS マウントから Hadoop への並列コピーを実現する最善かつ迅速な方法は何ですか? 膨大な数のファイルを含むマウントがあり、それを hdfs にコピーする必要があります。
いくつかのオプション:
- マルチスレッドで copyFromLocal を実行する
- 分離された方法で distcp を使用します。
- コピーを行うためにマップのみのジョブを作成できますか?
よろしく、JD
sql - Apache Hive の外部テーブルのサブディレクトリを無視する
外部テーブルを照会するときに、Hive にサブディレクトリを無視するよう強制する設定または方法はありますか? テーブル フォルダにテーブルのデータの一部ではないサブディレクトリがあり、それを削除したりファイルを別の場所にコピーしたりしたくありません。
permissions - ApachePig権限の問題
HadoopクラスターでApachePigを起動して実行しようとしていますが、アクセス許可の問題が発生しています。Pig自体が起動し、クラスターに正常に接続しています。Pigシェル内からls
、HDFSディレクトリ内およびその周辺を移動できます。ただし、実際にデータをロードしてPigコマンドを実行しようとすると、アクセス許可に関連するエラーが発生します。
この場合、all_annotated.txt
は私が作成したHDFSホームディレクトリ内のファイルであり、最も確実に次の権限を持っています。どのファイルを作成しようとしても、同じ問題が発生しますload
。ただし、エラー自体はPigがどこかに書き込もうとしていることを示しているため、これが問題になるとは思いません。order
調べてみると、特定のPig Latinステートメント(など)がhadoop.tmp.dir
、hdfsd-site.xmlのプロパティによって場所が制御されているHDFSファイルシステム上の一時ディレクトリへの書き込みアクセスが必要であることを示唆するメーリングリストの投稿がいくつか見つかりました。そのカテゴリに分類されるとは思い ませんload
が、念のためhadoop.tmp.dir
、HDFSホームディレクトリ内のディレクトリを指すように変更しましたが、問題は解決しませんでした。
それで、そこにいる誰かが何が起こっているのかについて何か考えを持っていますか?
hadoop - HDFSでファイルを更新しようとするとHDFSパスが変更される
私はHadoopとHDFSを初めて使用するので、ローカルホスト(Ubuntu 10.04)からローカルホスト上の単一ノードのHDFSにコピーするときに間違っている可能性があります。最初のコピーは正常に機能しますが、ローカル入力フォルダーを変更してHDFSにコピーし直そうとすると、HDFSパスが変更されます。
同じローカルディレクトリに別のファイル(COMMON.TXT)を追加した後、ローカルディレクトリで同じコピーをHDFSに実行しましたが、今回は最初とは異なる場所にコピーします(/ user / hduser/anagramから/user / hduser / anagram / anagram)。
誰かがこれに遭遇しましたか?これを解決するには、最初のディレクトリを削除してから、もう一度コピーする必要があることがわかりました。
毎回ディレクトリを削除せずにこれを行う方法を知っている人はいますか?
hadoop - Hadoop の setCompressOutput
いつ使うべきか、使わないべき
FileOutputFormat.setCompressOutput(conf, true);
か?
マッパー出力を圧縮すると聞きました。レデューサー側の出力を圧縮する可能性はありますか?
(私の仮定が間違っている場合は、マッパー出力とリデューサー出力を圧縮する方法を教えてください!)
hadoop - タスクトラッカー/ジョブトラッカーのWebインターフェイスをHadoopで一般に公開するにはどうすればよいですか?
さまざまなクラスターノードを監視しようとしていますが、ノードに対してssh -Xを実行し、ブラウザーを起動してステータス情報を確認する必要があるたびに。
これらをhttp:// jobtracker:50030、http:// namenode:50070などに公開する方法はありますか?誰でもブラウザで見ることができます。
これはおそらくサーバーをセットアップすることによって行う必要があると思います。しかし、グーグルで検索しても役立つ情報は見つかりませんでした。
hadoop - Hadoop MapReduceを実行すると、HDFSの外部で外部実行可能ファイルを呼び出すことができますか?
マッパー内で、HDFSの外部のワーカーノードにインストールされている外部ソフトウェアを呼び出したいと思います。これは可能ですか?これを行うための最良の方法は何ですか?
これによりMapReduceの利点/スケーラビリティの一部が失われる可能性があることは理解していますが、HDFS内で対話し、マッパー内でコンパイル/インストールされた外部ソフトウェアコードを呼び出してデータを処理したいと思います。
hbase - HBaseから画像を取得するにはどうすればよいですか?
HDFSには約1ギガの画像.pngファイルがあります。誰かが私にこれらの画像のインデックス値をHBaseに保存し、HBaseにクエリを実行して画像を取得する方法を提案できますか?または、HDFS/HBaseを使用して画像を提供するにはどうすればよいですか。pls返信。
緊急の要件:(
前もって感謝します
permissions - ファイルを変更してプロセスを実行するために、hadoop 内の tasktracker/mapred ユーザーに権限を付与するにはどうすればよいですか?
私はhadoopを実行しており、マッパープロセス内でいくつかのプロセスを実行し、ファイルを作成/編集しています。残念ながら、次のような mapred のいくつかの権限エラーが発生しています。
ファイルを変更してプロセスを実行できるように、 tasktracker または mapred ユーザーのアクセス許可を設定する場所を知っている人はいますか?
また、これを行うためのより良い方法があれば、私に知らせてください。