問題タブ [data-integration]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1599 参照

version-control - Talend Open Studioでジョブリリースを削除する

データ統合に Talend Open Studio を使用しており、初期ジョブの新しいリリース (作成時のリリース 0.1) を作成しましたが、現在はリリース 0.2 です。

作業コピーとして最初のリリースに戻り、0.2 を抑制したいと考えています。

これはTalend Studioの「オープン」(つまり無料)バージョンで可能ですか? どのようにできるのか ?ご協力いただきありがとうございます。

0 投票する
0 に答える
3109 参照

mysql - SQLスクリプトを実行してデータを挿入するPentaho

インポートされたデータを使用して欠落しているシーケンスのリストを提供するレポートに取り組んでいます。

id フィールドを除いて、真に一意の値や値の組み合わせは存在しません

このテーブルのデータは次のようになります (other_data フィールドは無視します)。

上記の例のように、複数の client_id/sequence の組み合わせが可能であり、シーケンスが 1 (または 0) で開始されない可能性があります。

この質問への回答のバリエーションなど、欠落しているシーケンスを見つけるためのクエリを実行することは可能ですが、これには非常に時間がかかる可能性があります

この方法に代わる方法は、(Pentaho データ統合ツールを使用して) データがテーブルに挿入される前またはその間にいくつかの挿入/更新クエリを実行し、欠落している client_id/sequence 値を含む追加のテーブルを使用することでした。これは、上記の例で (client_id, sequence) の値 (1001, 5) を挿入すると、次のクエリのようなものを使用して、シーケンス 2 ~ 4 が欠落していることが検出されることを意味します。

(Pentaho Execute SQL ステートメントの代わりに SQL でクエリをテストしやすくするために、挿入はコメントアウトされているため、単なる選択であることに注意してください)

結果:

これにより、欠落しているシーケンス テーブルがある程度正常に読み込まれますが、以前に欠落していたシーケンスの 1 つを含む行が追加されると、問題が発生します。
(当初、client_id と miss_start に基づくプライマリ インデックスもありました。これにより、追加された重複値も処理されますが、これが正しいかどうかは完全にはわかりませんでした)

挿入されたシーケンス番号に応じて、次の 4 つの可能性のいずれかが存在します。例を次に示します。

これが私の問題の出番です (インポートされたデータがソートされない可能性があることを考慮した場合):
Pentaho データ統合変換での最初の挿入と複製だけでなく、各可能性にどのように対応すればよいでしょうか?

編集: ブレーンストーミングの後、MySQL で実行すると機能するように見える次のスクリプトを思いつきましたが、「SQL ステートメントの実行」トリガーとして実行すると機能しません。これは、(client_id, missing_start) の missing_sequences テーブルのプライマリ インデックスです。

行ごとに実行と変数置換ボックスがチェックされていますが、実行に一貫性がないか、欠落しているシーケンステーブルがまったく更新されていないようです

0 投票する
1 に答える
6445 参照

twitter - Twitter から特定の期間のデータを取得するように Apache Flume を設定するにはどうすればよいですか?

Twitter から HDFS へのデータ統合のための Hadoop クラスターと Apache Flume があります。デフォルトでは、最新のツイートが最初に取得され、同様に時系列順にデータが取得されます。特定の期間、Twitter から特定のデータを取得するユースケースがあります。 2013 年 2 月と言います。Flume または Twitter ハンドルに設定する必要がある構成またはプロパティがあることをお知らせください。

前もって感謝します。

0 投票する
1 に答える
71 参照

mysql - 2 つの異なる MySQL サーバー間で定期的にデータを統合するにはどうすればよいですか?

現在、別のマシンで 2 つの MySQL Server を実行しています。1 つはステージング環境 (A) で、もう 1 つは本番環境 (B) です。私がする必要があるのは、(A) からデータを取得し、条件に基づいて B に更新/挿入することです。MySQL に Linked オプションがあれば、ストアド プロシージャを作成するだけで作業を実行でき、問題全体を解決できます。残念ながら、MySQL のような優れた製品には、この必要な未来がありません。

しかし、それを行うための手順を書くことができないので、どのアプリケーションを使用して統合を行うことができますか? この統合は自動化する必要があるため、毎日、場合によっては毎時間行うことができます。

私の質問は、MySQL サーバー上のデータを別のサーバーに自動的に統合する統合アプリケーションはありますか?

ありがとう

0 投票する
2 に答える
1069 参照

pentaho - pentaho データ統合を使用したファクト テーブルの読み込み

pentaho DI を使用して、データをファクト テーブルに挿入しています。Thing は、ファクト テーブルに 10000 のレコードが含まれており、頻繁に変更されるテーブルです。データベース ルックアップと挿入更新を使用して、ファクト テーブルを 1 回正しくロードすることができます。しかし、新しいレコードがソース テーブルに追加され (15000 になるとします)、再びレコードをファクト テーブルに挿入すると、これらの 15000 件のレコードが再びファクト テーブルに追加されます。私が望むのは、ファクト テーブルに存在しない新しい 5000 レコードを追加することです。これを達成するために実行する必要がある変換について教えてください。

0 投票する
1 に答える
773 参照

sql - Pentaho 名前付きパラメーター エラー

私はpdi 4.3.0を使用しています。名前付きパラメーターの使用に問題があります。私は3つの変換を持っています。1.変身1

2.変身2

3.変身3

今、私はジョブを使用してこれらの変換を実行しました。

常にエラーが発生する T3 不明な列 'name'