私は最近データ分析を始めましたが、この 1 年間でかなりのことを学びました (現時点では、ほとんど Python のみを使用しています)。次のステップは、MapReduce/Hadoop のトレーニングを開始することだと思います。しかし、私は正式なコンピューター サイエンスのトレーニングを受けていないため、人々が Hadoop について書くときに使用される専門用語をよく理解していないことが多いため、ここで質問します。
私が望んでいるのは、Hadoop のトップ レベルの概要 (他に使用すべきものがない限り) であり、おそらく何らかのチュートリアル/教科書の推奨事項です。
たとえば、Python で作成したニューラル ネットワークを並列化したい場合、どこから始めればよいでしょうか? アルゴリズムを使用して Hadoop を実装するための比較的標準的な方法はありますか?それとも、各ソリューションは特定の問題に特化していますか?
Apache wiki ページでは、Hadoop を「コモディティ ハードウェアで構築された大規模なクラスター上でアプリケーションを実行するためのフレームワーク」と説明しています。しかし、それはどういう意味ですか?「Hadoop クラスター」という言葉を聞いたことがありますが、Hadoop が Java ベースであることは知っています。つまり、上記の例では、Java を学習し、たとえばいくつかの Amazon サーバーで Hadoop クラスターをセットアップし、最終的に Hadoop を使用してクラスターで動作させる前にアルゴリズムを Jython 化する必要があるということですか?
助けてくれてありがとう!