問題タブ [kettle]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
migration - ケトルは優れたデータ移行ソリューションですか?
ケトルを使った経験のある人はいますか? 優れたデータ移行ソリューションを探しています。
etl - Pentaho Kettle のアーキテクチャはどこにありますか?
Pentaho Kettle アーキテクチャはどこにありますか? 短いウィキ、設計ドキュメント、ブログ投稿など、物事がどのように機能するかについての概要を説明するものを探しています。この質問は、具体的な「ハウツー」の開始ガイドではなく、テクノロジとアーキテクチャに関する優れた見解を示すものです。
具体的な質問は次のとおりです。
- ステップ間のデータの流れは?すべてが記憶されているように見えますが、これは正しいですか?
- 上記は、さまざまな変換についても当てはまりますか?
- 収集手順はどのように実装されていますか?
- それを使用するための特定のパフォーマンスガイドラインはありますか?
- ftp タスクは信頼性とパフォーマンスに優れていますか?
- 他の「すべきこととすべきでないこと」はありますか?
java - ペンタホケトル用Srcジャー
Kettle の src-jar はどこにありますか? Java ファイルを含む jar を探しています。IDE を指定できます (junit-4.6-src.jar など)。
xml - Kettle/Spoonで属性とノードの両方を同時に読み取る
私はケトルを使用していて、xmlドキュメントから属性とノードの両方の値を読み込もうとしています。
ループXPathをColorsに設定すると、1行しか取得されませんが、コードと値の両方が読み取られます。
例:
ただし、XPathをColorに設定すると、3行が取得されますが、各項目の値は読み取られません。
例:
すべての要素と、属性とノード値の両方を1回のパスで読み取るにはどうすればよいですか?
ありがとう。
ssis - Rhino ETL の意見 vs Kettle と SSIS
日々の需要が高く、大量のビジネス ロジック処理を必要とする ETL ソリューション用のツールを検討しています。これまでケトルと SSIS を試してきましたが、Rhino ETL もテストしたいと思っています。Kettle と SSIS の両方の視覚的なフロー構造は気にしません。複雑なビジネス ルールを作成するのは非常に難しいようです。Rhino ETL は、データを変換するための独自の DSL を備えており、C# も使用できるため、より使いやすいようです。
最後に、私の質問は次のとおりです。Rhino ETL を頻繁に使用する人はいますか? Kettle や SSIS に比べてパフォーマンスが良いですか? 保守性はどうですか?
ありがとう
アップデート:
Kettle と SSIS を比較したところ、間違いなく Kettle の方が優れていました。Kettle と比較して実用的なアプローチの Rhino ETL を検討しています。コメントで述べたように、一歩後退しているように見えますが、必要な種類の検証は、Kettle が推奨される種類の問題ではありません。たとえば、統合の 1 つは、システム内の既存のスケジュールに対して検証する必要があるある種のスケジュールを受け取ります。それらは競合してはならず、スケジュールにはいくつかの種類があり、競合の検証ルールは複雑です。システムにはそれを行うためのユーザー インターフェイスが既にあり、ビジネス ロジックは C# コードで既に実装されています。それをケトルに移植しようとする試みは、信じられないほど難しいように思えます。さらに、「物事を行うための唯一の方法」の原則に違反しています。
コメントで取り上げられた「誰も使用していない」問題は私にとっても懸念事項です。そのため、重い実稼働環境で誰かが使用しているかどうかを確認しようとしています。
これまでのフィードバックに感謝します。
recursion - Pentahoデータ統合での再帰呼び出し
Pentaho Data Integrationのステップまたは変換がそれ自体を呼び出し、前の呼び出しの結果をパラメーター/変数として渡すことは可能ですか?
私の最初の考えは、変換でループを作成することでしたが、それらは許可されていないようです...
pentaho - ジョブでの変換の待機
私は Pentaho Data Integration (別名 Kettle) を使用しており、いくつかの変換があります。それらを A、B、C、D、E と呼びましょう。B は A に依存し、D は C に依存し、E は B と D に依存します。 A、BとC、Dを並行して実行したい:
ここで、A と C は並列に実行されます。BとD が成功した場合にのみ E を実行する方法はありますか? 現在、ジョブ メトリクスを見ると、BまたはD のいずれかが終了するとすぐに E が実行されます。
sql - 削除を実行する前に、または単に盲目的に削除を呼び出す場合は、選択カウントを実行する方が良いですか?
選択カウントを実行して、削除を呼び出す前に結果が0より大きいかどうかを確認する方がよいかどうか、またはデータベースで削除ステートメントを盲目的に起動する方がよいかどうかについてのベストプラクティス/考えを探しています。データは存在しません。私たちの場合、ほとんどの場合、データは存在しません。
だから何が良いですか:
また
私はスピードの理由でブラインド削除に傾いています、そしてあなたはとにかくテーブルヒットをしているので。
編集:これは実際にはケトル(ETLツール)で発生しているため、削除がある場合は3つの操作が完全に別々に実行されます。したがって、完全にSQLを使用することはできません。
pentaho - Pentaho: 日付をドリルダウン可能なキューブ ディメンションに変換する最良の方法は?
私のデータ ウェアハウス テーブルには 1 つのdate
SQL 列しか含まれていませんが、通常の年/四半期/月/日のレベルを使用してドリルダウンできるようにしたいと考えています。
Pentaho Kettle を使用して新しい列を手動で作成し、Pentaho Schema Workbench でレベルを 1 つずつ作成できます。
しかし、これは非常に一般的なタスクです (売上関連のキューブを作成するすべての人が実行する必要があると思います)。それを行うための推奨される方法は何ですか?
regex - 不要なテキストを削除する正規表現
私はまだ正規表現全般に慣れていません。フィールドから名前を取得して、さらに使用するために分割できるようにしようとしています (データ抽出には Pentaho Data Integration/Kettle を使用)。与えられた文字列の例を次に示します。
次の形式を返したいと思います。
Kettle は Java 正規表現を使用します。