問題タブ [google-cloud-dataprep]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
268 参照

google-cloud-platform - DataPrep では、オブジェクト内の多数の列または値のセットを合計します

一連の ~10 列を含む DataPrep データセットがあり、それぞれが特定のパンフレットが選択されたかどうかを示します。

BrochuresSelectedこれらの値を列に合計/カウントしたいと思います。

ADD列範囲 (つまりBRO_AF~BRO_ITA) で使用することを望んでいましたが、 ADD2 つの数値しか使用できません。

COUNT列ではなく行をカウントするため、使用できません。

パンフレットのまたはをNEST格納する列を作成するために使用できますが、これらを追加する機能はないようです。空の列でさえ列に表示されるため、この列では使用できません(たとえば、配列の長さは 1 つではなく 6 つになります)。maparrayARRAYLEN["1","","","","",""]

誰かが同様の問題を解決しましたか?

0 投票する
0 に答える
285 参照

google-bigquery - DataPrep の配列フィールドは、BigQuery で文字列として認識されます

レポート用にデータを処理するために dataprep を使用しようとしています。

ただし、配列であるはずのフィールドは、bigquery では文字列として認識されます。

サンプルデータ:

基本的に、いくつかのフィールドを大文字にしたいだけです(これは単純な例にすぎません。私は非常に複雑な変換を行っています)。Wrangle ファイルは次のとおりです。

そして最後にbigquery(テーブル内)になります:

私はこれをグーグルの問題でも尋ねます。 https://issuetracker.google.com/issues/69773118

疑問に思っているのですが、誰かがこの問題を抱えていて、回避策がありますか? ここで説明されているように、biquery で JSON をクエリできることはわかっています: How to query json stored as string in bigquery table?

ただし、クエリが複雑になるため、避けたいと思います。

0 投票する
0 に答える
500 参照

google-bigquery - Google Cloud Dataprep - 複数の入力 csv をスキャンし、対応する bigquery テーブルを作成する

GCS には、同じスキーマを共有するがタイムスタンプが異なるいくつかの csv ファイルがあります。たとえば、次のようになります。

  • data_20180103.csv
  • data_20180104.csv
  • data_20180105.csv

それらを dataprep で実行し、対応する名前で Bigquery テーブルを作成したいと考えています。このジョブは、スケジューラーを使用して毎日実行する必要があります。

今のところ、うまくいくと思うのは次のとおりです。

  1. csv ファイルには、同じファイル内のすべての行で同じタイムスタンプ列が必要です。
  2. GCS に raw、queue、wrangled の 3 つのフォルダを作成する
  3. 生の csv ファイルを raw フォルダーに入れます。次に、クラウド関数が実行され、1 つのファイルが空の場合は raw フォルダーからキュー フォルダーに移動されます。それ以外の場合は何もしません。
  4. Dataprep は、スケジューラに従ってキュー フォルダをスキャンします。csv ファイル (例: data_20180103.csv) が見つかった場合、対応するジョブが実行され、出力ファイルはラングリングされたフォルダー (例: data.csv) に配置されます。
  5. ラングリングされたフォルダーに新しいファイルが追加されるたびに、別のクラウド機能が実行されます。これにより、csv ファイルのタイムスタンプ列に基づいた名前の新しい BigQuery テーブルが作成されます (例: 20180103)。また、キューとラングリングされたフォルダー内のすべてのファイルを削除し、未加工のフォルダーから 1 つのファイルがあればキュー フォルダーに移動します。

すべてのテーブルが作成されるまで繰り返します。これは私には非常に複雑に思えます。クラウド機能が機能しない場合の処理​​方法がわかりません。

私のユースケースに対する他の提案は大歓迎です。

0 投票する
1 に答える
229 参照

google-cloud-platform - Google Dataprep: 更新されたデータ ソースを使用したスケジューリング

GCS (Google Cloud Storage) ファイルのアップロードで dataprep フローをトリガーする方法はありますか? または、少なくとも、dataprep を毎日実行し、GCS の特定のディレクトリから最新のファイルを取得することは可能ですか?

そうでなければスケジューリングのポイントは何ですか?同じ出力で同じデータ ソースに対して同じジョブを実行しますか?