Windows 上の Hadoop/HDFS に関する一般的な質問は以前にも提起されていますが、Windows のサポートにとって最も重要であると私が考えるユースケースを提示している人を見たことがありません。 HDFS。
特に、Linux ベースの HDFS 環境があり、多数のノードと分析ジョブが実行されており、すべてが満足しているとしましょう。Windows デスクトップでもファイルを使用するにはどうすればよいですか? 私たちの分析が、何百万ものほとんど興味のないファイルの中から興味深いファイルを見つけたとします。ここで、それらをデスクトップ アプリケーションに取り込み、視覚化したいと考えています。デスクトップがこれらを使用する最も自然な方法は、Windows 共有、できれば Windows サーバーを介することです。
Windows の CIFS の実装は、Samba よりも桁違いに優れています。これは議論の対象ではなく、事実として述べています。これは、Samba を動作させることができないと言っているのではなく、本質的にこの HDFS ファイル システムを CIFS としてエクスポートすることを非常に強く好む十分な理由があるということだけです。
これは、バックエンド プロセスで対象ファイルを取得してコピーするワークフローを介して行うことができます。しかし、これは多くの場合面倒であり、Windows に縛られたアナリストが自分でファイルを簡単に探索する自由を与えてくれません。
したがって、私が本当に探しているのは次のとおりです。
- Windows サーバー
- 「マウントされた」ファイルシステムとしての HDFS。Windows は HDFS の「クライアント」と見なされます
- このファイル システムを Windows から CIFS サーバーとしてエクスポートします
- Windows デスクトップでファイルを使用する
- すべての通常の Windows グループ権限が正しく機能するようにします (たとえば、NFSv4 ACL にマッピングすることによって)。
ところで、この質問で「HDFS」を「GPFS」に置き換えると、すべてうまくいきます。現時点では、これが私の環境における HDFS と GPFS の重要な差別化要因です。はい、他にも多くの比較ポイントがありますが、現時点では一般的な GPFS と HDFS に焦点を当てることは避けたいと思います。
誰か #GPFS タグを追加してくれませんか?