“data-integration”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

1599 参照

version-control - Talend Open Studioでジョブリリースを削除する

データ統合に Talend Open Studio を使用しており、初期ジョブの新しいリリース (作成時のリリース 0.1) を作成しましたが、現在はリリース 0.2 です。

作業コピーとして最初のリリースに戻り、0.2 を抑制したいと考えています。

これはTalend Studioの「オープン」(つまり無料)バージョンで可能ですか? どのようにできるのか？ご協力いただきありがとうございます。

2013-07-25T10:21:19.233

0 投票する

0 に答える

3109 参照

mysql - SQLスクリプトを実行してデータを挿入するPentaho

インポートされたデータを使用して欠落しているシーケンスのリストを提供するレポートに取り組んでいます。

id フィールドを除いて、真に一意の値や値の組み合わせは存在しません

このテーブルのデータは次のようになります (other_data フィールドは無視します)。

上記の例のように、複数の client_id/sequence の組み合わせが可能であり、シーケンスが 1 (または 0) で開始されない可能性があります。

この質問への回答のバリエーションなど、欠落しているシーケンスを見つけるためのクエリを実行することは可能ですが、これには非常に時間がかかる可能性があります

この方法に代わる方法は、(Pentaho データ統合ツールを使用して) データがテーブルに挿入される前またはその間にいくつかの挿入/更新クエリを実行し、欠落している client_id/sequence 値を含む追加のテーブルを使用することでした。これは、上記の例で (client_id, sequence) の値 (1001, 5) を挿入すると、次のクエリのようなものを使用して、シーケンス 2 ～ 4 が欠落していることが検出されることを意味します。

(Pentaho Execute SQL ステートメントの代わりに SQL でクエリをテストしやすくするために、挿入はコメントアウトされているため、単なる選択であることに注意してください)

結果：

これにより、欠落しているシーケンステーブルがある程度正常に読み込まれますが、以前に欠落していたシーケンスの 1 つを含む行が追加されると、問題が発生します。
(当初、client_id と miss_start に基づくプライマリインデックスもありました。これにより、追加された重複値も処理されますが、これが正しいかどうかは完全にはわかりませんでした)

挿入されたシーケンス番号に応じて、次の 4 つの可能性のいずれかが存在します。例を次に示します。

これが私の問題の出番です (インポートされたデータがソートされない可能性があることを考慮した場合):
Pentaho データ統合変換での最初の挿入と複製だけでなく、各可能性にどのように対応すればよいでしょうか?

編集: ブレーンストーミングの後、MySQL で実行すると機能するように見える次のスクリプトを思いつきましたが、「SQL ステートメントの実行」トリガーとして実行すると機能しません。これは、(client_id, missing_start) の missing_sequences テーブルのプライマリインデックスです。

行ごとに実行と変数置換ボックスがチェックされていますが、実行に一貫性がないか、欠落しているシーケンステーブルがまったく更新されていないようです

mysql pentaho missing-data data-integration

2013-08-08T13:42:39.763

0 投票する

1 に答える

6445 参照

twitter - Twitter から特定の期間のデータを取得するように Apache Flume を設定するにはどうすればよいですか?

Twitter から HDFS へのデータ統合のための Hadoop クラスターと Apache Flume があります。デフォルトでは、最新のツイートが最初に取得され、同様に時系列順にデータが取得されます。特定の期間、Twitter から特定のデータを取得するユースケースがあります。 2013 年 2 月と言います。Flume または Twitter ハンドルに設定する必要がある構成またはプロパティがあることをお知らせください。

前もって感謝します。

twitter hadoop flume data-integration

2013-08-23T06:14:14.297

0 投票する

1 に答える

71 参照

mysql - 2 つの異なる MySQL サーバー間で定期的にデータを統合するにはどうすればよいですか?

現在、別のマシンで 2 つの MySQL Server を実行しています。1 つはステージング環境 (A) で、もう 1 つは本番環境 (B) です。私がする必要があるのは、(A) からデータを取得し、条件に基づいて B に更新/挿入することです。MySQL に Linked オプションがあれば、ストアドプロシージャを作成するだけで作業を実行でき、問題全体を解決できます。残念ながら、MySQL のような優れた製品には、この必要な未来がありません。

しかし、それを行うための手順を書くことができないので、どのアプリケーションを使用して統合を行うことができますか? この統合は自動化する必要があるため、毎日、場合によっては毎時間行うことができます。

私の質問は、MySQL サーバー上のデータを別のサーバーに自動的に統合する統合アプリケーションはありますか?

ありがとう

mysql data-integration

2013-08-27T20:14:55.530

0 投票する

2 に答える

1069 参照

pentaho - pentaho データ統合を使用したファクトテーブルの読み込み

pentaho DI を使用して、データをファクトテーブルに挿入しています。Thing は、ファクトテーブルに 10000 のレコードが含まれており、頻繁に変更されるテーブルです。データベースルックアップと挿入更新を使用して、ファクトテーブルを 1 回正しくロードすることができます。しかし、新しいレコードがソーステーブルに追加され (15000 になるとします)、再びレコードをファクトテーブルに挿入すると、これらの 15000 件のレコードが再びファクトテーブルに追加されます。私が望むのは、ファクトテーブルに存在しない新しい 5000 レコードを追加することです。これを達成するために実行する必要がある変換について教えてください。

pentaho kettle data-integration

2013-09-18T17:52:38.697

0 投票する

1 に答える

773 参照

sql - Pentaho 名前付きパラメーターエラー

私はpdi 4.3.0を使用しています。名前付きパラメーターの使用に問題があります。私は3つの変換を持っています。1.変身1

2.変身2

3.変身3

今、私はジョブを使用してこれらの変換を実行しました。

常にエラーが発生する T3 不明な列 'name'

sql sql-server pentaho kettle data-integration

2013-10-08T09:03:56.137

問題タブ [data-integration]

version-control - Talend Open Studioでジョブリリースを削除する

mysql - SQLスクリプトを実行してデータを挿入するPentaho

twitter - Twitter から特定の期間のデータを取得するように Apache Flume を設定するにはどうすればよいですか?

mysql - 2 つの異なる MySQL サーバー間で定期的にデータを統合するにはどうすればよいですか?

pentaho - pentaho データ統合を使用したファクト テーブルの読み込み

sql - Pentaho 名前付きパラメーター エラー

Reference

pentaho - pentaho データ統合を使用したファクトテーブルの読み込み

sql - Pentaho 名前付きパラメーターエラー