問題タブ [google-cloud-dataprep]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
google-cloud-platform - DataPrep では、オブジェクト内の多数の列または値のセットを合計します
一連の ~10 列を含む DataPrep データセットがあり、それぞれが特定のパンフレットが選択されたかどうかを示します。
BrochuresSelected
これらの値を列に合計/カウントしたいと思います。
ADD
列範囲 (つまりBRO_AF~BRO_ITA
) で使用することを望んでいましたが、 ADD
2 つの数値しか使用できません。
COUNT
列ではなく行をカウントするため、使用できません。
パンフレットのまたはをNEST
格納する列を作成するために使用できますが、これらを追加する機能はないようです。空の列でさえ列に表示されるため、この列では使用できません(たとえば、配列の長さは 1 つではなく 6 つになります)。map
array
ARRAYLEN
["1","","","","",""]
誰かが同様の問題を解決しましたか?
google-bigquery - DataPrep の配列フィールドは、BigQuery で文字列として認識されます
レポート用にデータを処理するために dataprep を使用しようとしています。
ただし、配列であるはずのフィールドは、bigquery では文字列として認識されます。
サンプルデータ:
基本的に、いくつかのフィールドを大文字にしたいだけです(これは単純な例にすぎません。私は非常に複雑な変換を行っています)。Wrangle ファイルは次のとおりです。
そして最後にbigquery(テーブル内)になります:
私はこれをグーグルの問題でも尋ねます。 https://issuetracker.google.com/issues/69773118
疑問に思っているのですが、誰かがこの問題を抱えていて、回避策がありますか? ここで説明されているように、biquery で JSON をクエリできることはわかっています: How to query json stored as string in bigquery table?
ただし、クエリが複雑になるため、避けたいと思います。
google-bigquery - Google Cloud Dataprep - 複数の入力 csv をスキャンし、対応する bigquery テーブルを作成する
GCS には、同じスキーマを共有するがタイムスタンプが異なるいくつかの csv ファイルがあります。たとえば、次のようになります。
- data_20180103.csv
- data_20180104.csv
- data_20180105.csv
それらを dataprep で実行し、対応する名前で Bigquery テーブルを作成したいと考えています。このジョブは、スケジューラーを使用して毎日実行する必要があります。
今のところ、うまくいくと思うのは次のとおりです。
- csv ファイルには、同じファイル内のすべての行で同じタイムスタンプ列が必要です。
- GCS に raw、queue、wrangled の 3 つのフォルダを作成する
- 生の csv ファイルを raw フォルダーに入れます。次に、クラウド関数が実行され、1 つのファイルが空の場合は raw フォルダーからキュー フォルダーに移動されます。それ以外の場合は何もしません。
- Dataprep は、スケジューラに従ってキュー フォルダをスキャンします。csv ファイル (例: data_20180103.csv) が見つかった場合、対応するジョブが実行され、出力ファイルはラングリングされたフォルダー (例: data.csv) に配置されます。
- ラングリングされたフォルダーに新しいファイルが追加されるたびに、別のクラウド機能が実行されます。これにより、csv ファイルのタイムスタンプ列に基づいた名前の新しい BigQuery テーブルが作成されます (例: 20180103)。また、キューとラングリングされたフォルダー内のすべてのファイルを削除し、未加工のフォルダーから 1 つのファイルがあればキュー フォルダーに移動します。
すべてのテーブルが作成されるまで繰り返します。これは私には非常に複雑に思えます。クラウド機能が機能しない場合の処理方法がわかりません。
私のユースケースに対する他の提案は大歓迎です。
google-cloud-platform - Google Dataprep: 更新されたデータ ソースを使用したスケジューリング
GCS (Google Cloud Storage) ファイルのアップロードで dataprep フローをトリガーする方法はありますか? または、少なくとも、dataprep を毎日実行し、GCS の特定のディレクトリから最新のファイルを取得することは可能ですか?
そうでなければスケジューリングのポイントは何ですか?同じ出力で同じデータ ソースに対して同じジョブを実行しますか?