Hadoop は一般的に半構造化データ処理の代替手段であるだけではありません。タブ区切りのプレーンなデータと、一連の UNIX ツール (cut、grep、sed など) および手書きの Python スクリプトを使用して、多くのことを行うことができます。しかし、非常に大量のデータを取得することがあり、処理時間が 20 ~ 30 分かかることもあります。データセットを動的に実験したり、セミアドホッククエリを実行したりしたいので、私には受け入れられません。
では、このアプローチの費用対効果の観点から、Hadoop クラスターを設定するのに十分なデータ量はどれくらいとお考えですか?