問題タブ [jsonlines]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
npm - jsonlines パッケージが registry.npm.taobao.org に解決されるのはなぜですか?
npm パッケージjsonlinesregistry.npm.taobao.org
をインストールすると、.ではなくミラーリングされたレジストリに解決されますregistry.npmjs.org
。に対してのみこれを行いjsonlines
ます。これは何が原因ですか?
これが私のpackage-lock.jsonの差分です。元の「解決された」値は、別の開発者がパッケージをインストールしたときに作成されました。
構成済みのレジストリが npmjs.org であることを確認しました。
database - 複数の jsonl ファイルを含む複数のフォルダを GCP のクラウド データベースにロードします(例: BigQuery)
データ
データは、 Google Cloud Storageバケット.jsonl.gz
内の複数のフォルダに複数のファイルとしてフォーマットされます。
たとえば、データをファイルごとにロードした場合、ロードするファイルは次のようになります。
これらのjsonl
ファイルの内容は通常と変わりません。つまり、その内容は次のようなものです。
個々のファイルは大きくありませんが、それらすべてを合計すると、500 GB をはるかに超える大きなデータセットがあり、メモリにロードして単一のファイルに連結し、クラウドにアップロードするのが非常に困難になります。
BigQuery
BigQuery ではjsonl
、圧縮されているかどうかに関係なく、ユーザーがファイルからデータをアップロードできるようです。ただし、複数のファイルや複数のフォルダーからの読み取りはサポートしていないようです。
その他のツール
BigQuery の使用は制限されていませんが、GCP の使用は制限されています (GKE クラスターに基づくデータベース インスタンスの作成を意味する場合でも)。
このデータをデータベースにロードする方法を知っている人はいますか?