大量のデータ (50 億行以上) をデータベースに非常に迅速に (理想的には 30 分未満であるが、より高速であることが望ましい) ロードする必要があるという問題があり、最近、postgresql を調べるように提案されました (mysql で失敗しました)。 hbase/cassandra を見ていました)。私のセットアップでは、大量のデータを生成するクラスター (現在 8 台のサーバー) があり、クラスター内の各マシンでローカルにデータベースを実行して、ローカルですばやく書き込み、最後に (またはデータ生成全体で) データを実行することを考えていました。一緒に合併しました。データは任意の順序ではないため、どの特定のサーバー上にあるかは気にしません (最終的にそこにある限り)。
私の質問は、PostgreSQL の自動シャーディングについて学ぶための良いチュートリアルや場所はありますか (自動シャーディングを行っている sykpe のような会社の結果を見つけましたが、チュートリアルはありません。これを自分で試してみたいと思います)。私がやろうとしていることは可能ですか?自動インクリメント ID 番号を使用する予定だったデータの順序が異なるため、データがマージされた場合に競合が発生しますか (これはもう大きな問題ではありません)。
更新: 以下のフランクのアイデアは、私が尋ねていた自動インクリメントの競合の問題を解消しました。問題は基本的に、自動シャーディングについてどのように学ぶことができ、複数のサーバーへのデータの分散アップロードをサポートするかということです。