背景(長くてすみません):
私は、1 日あたり約 20 ~ 30 MB のさまざまなオンライン広告データを収集し、それを MySQL のテーブルに追加する ETL を維持する任務を負っています。外部の請負業者が、Pentaho Spoon (キッチン、ケトル?) を使用して ETL を構築しました。ETL は、約 250 のジョブと変換 (.ktr、.kjb) で構成され、それぞれに約 5 ~ 25 のステップがあります。この大規模なプロセスで何かがうまくいかないことはよくあることです。変換と読み込みを行う R スクリプトを作成すると、はるかに効率的であることがわかりました。実際、ETL は、RMySQL を使用した呼び出し (つまり plyr!) を除いて、1000 行をはるかに下回るコードに削減できると思います。おそらく、Web からデータを抽出するために Python が使用されるでしょう。
私の R の使用は、いくらかの抵抗につながりました。ETL を設計したコンピューター プログラマーは R を知らないため、私が離れても呼び出せませんでした。さらに、Spoon ETL には多くの時間が費やされました。また、素人は、R スクリプトよりも Spoon の方が視覚的に簡単に手順をたどることができます。私としては、ETL に行き詰まっていると思います。ただし、私はコンピューター サイエンスのバックグラウンドを持っていないため、この問題について大きな発言権はありません。
以下の内容について、お気づきの点がございましたらコメントください。私はこれを何ヶ月も研究しており、多くの意見を読んできましたが、SOが通常提供するほど簡潔で信頼できるものはありません:
R は、社内の一部からスケーラブルではないと言われています。主にロギング機能のために、私は反対だと思います。Spoon では純粋なログ出力が制限されていますが、すべての R スクリプトは日次ログにシンクできます。.ktrs の間違いを修正して回避するのは非常に面倒ですが、フラグを設定したり、R ログを検索したりすると簡単です。これについて何か考えはありますか?
これは全体像の問題につながります。Pentaho のような ETL のポイントは何ですか? この投稿ETL は必要ですか? 、Rまたはその他のいわゆるOOLを使用する場合、Pentahoのようなツールを使用する理由はないと私は信じています。もしそうなら、誰かがこれを確認できますか?ここでセカンドオピニオンが本当に必要です。もしそうなら、誰が Pentaho のようなツールを使用しますか? それは単にプログラミングのバックグラウンドのない人ですか、それとも他の人ですか? SO に関するかなりの量の Pentaho の質問を目にします。
Pentaho よりも多くの人が R を使用しているのは事実ですよね? このhttp://www.kdnuggets.com/2012/05/top-analytics-data-mining-big-data-software.htmlはそのように見えます。正直なところ、Pentaho が 5 位だったことには驚きました。これは、誰が Pentaho を使用しているのか、そして私の仕事の設定での使用についての私の疑問が見当違いであるかどうか、二重に疑問に思うことです。
返信ありがとうございます。Spoon や Spoon のユーザーを軽蔑しているわけではありません。私は本当に混乱していて、外部の意見が必要です。