問題タブ [bulk-load]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sql - Oracleに多数の行を挿入する方法は?
Oracle に多数の行を挿入する方法を教えてもらえますか?
insert ステートメントを使用して、テーブルの行にデータを挿入できます。
100,000 行を挿入したい場合、上記の手順に従って 1 つずつ挿入する必要がありますか? または、一度に多数の行を挿入する他の方法はありますか? 誰でも例を挙げてアドバイスしてもらえますか。
注: ここでは、別のテーブルからデータをコピーすることを求めているわけではありません.1,00,000 行で構成される XL シートがあると考えてください。次に、それらを特定のテーブルに挿入する方法..
ありがとう、サイ。
sql - インデックスの統計を収集するか、作成をドロップしますか?
インデックスを削除して再作成すると、dbms.gather_index_stats を使用した場合と同じ効果がありますか? (インデックスを再構築/更新するのと同じ効果がありますか)
それとも、これらは互いに比較すべきではない完全に異なるものなのでしょうか?
sql - インデックスの削除と再作成と比較して、インデックスの無効化と再有効化の違いは何ですか?
質問が述べているように、パフォーマンスの点で 2 つの違いは何ですか? また、どのようなシナリオに対してどちらが優れているのでしょうか?
それとも、この2つは同じ効果がありますか? 当てはまるとしたら、それぞれの長所と短所は何ですか?
私が理解していることから、インデックスを再作成すると、統計の収集と同様に再構築が発生します(11g)
インデックスの無効化と再有効化についてはどうですか? また、自動的に統計を収集しますか?
大規模なバッチ挿入/更新を行う必要があるという考え方でこれを求めていることに注意してください
どうもありがとう
c# - CSV 形式のデータの .TXT 拡張子ファイルを確認する最良の方法は何ですか?
CSV 形式のデータでいっぱいになった TXT ファイルをエクスポートおよびインポートする必要があります。MVC4でやりたいです。これを行うための最良のアプローチは何ですか?
txt ファイルには多数の CSV 形式のデータを含めることができますが、
sql - 主キー制約付きの monetdb での一括読み込み
オブジェクトのリストを 1 列 (主キー) のデータベースに一括ロードしようとしています。唯一の理由は、重複を削除することです。ファイル サイズがメモリ サイズよりもはるかに大きいため、リストをメモリにロードできません (約 10^14 の挿入が必要です!)。
monetdb のCOPY-INTOコマンドを使っていますが、重複があっても失敗したくありません。重複していないものをすべて追加し、重複をスキップしたい。
monetdbでそれを行う方法はありますか? その他の方法で?
python - Python cassandra 用の SStablewriter
cassandra 用の SStable ライターの python バリアントはありますか? 私は多くのJavaの例を見つけました、
http://amilaparanawithana.blogspot.com/2012/06/bulk-loading-external-data-to-cassandra.html
これはまだ検討中のものですか?
java - 大規模な書き込みにより、Cassandra リングが不安定になる
大量のデータを 10 ノードの Cassandra リングにロードしようとしています。
挿入を行うスクリプトは、おそらくネットワーク I/O でブロックされ、1 秒あたり最大 4000 回の挿入を取得します。これらのうち 8 つを 1 台のマシンで起動すると、スループットはほぼ直線的に増加します。(個々のスループットはわずかに低下しますが、追加のプロセスによって十分に補われます。)
これはうまく機能しますが、まだ十分なスループットが得られないため、さらに 3 つの VM で同じセットアップを開始しました。(したがって、8 プロセス * 4 VM) 最初の追加の VM の後、さらに VM が追加されるにつれて頻度と重大度が増加すると、次のことが発生します。
- クライアントはタイムアウト エラーを受信し始めます。書き込みを再試行できますが、バッチで行うため、進行状況はほぼ完全に排除されます。
- リングが不安定になり、ノードは自分自身を「ダウン」とラベル付けし始めます。さらに、ノードが異なれば、誰がダウンしているかについての考えも異なる傾向があります。スクリプトが中止されると、リングは回復しません。(個々のノードを再起動するだけではこれを修正できませんでした。リング全体を再起動する必要がありました。)
「ダウン」はさまざまです。私の最後の実行で:
- 4 つのノードが完全に停止しました。(Cassandra はまったく実行されていませんでした。) ログを確認したところ、なぜ停止したかについては何も記録されていないようでした。
- 5 日目、カサンドラは走っていました。
nodetool status
そのノードでハングします。2 つのスレッドが何らかの無限ループに入っているように見えます。(彼らは 100% の CPU をしっかりと使用しています。)java.lang.OutOfMemoryError: Java heap space
ログに があります。
コードは基本的に次のとおりです。
この関数はサイズ 200 のバッチにinsert_and_time
分割items
し、上記の関数を呼び出して、キット全体と kaboodle の時間を計測します。(このコードはリングにとって有害です。)
さらに読み込みを試みたのは、1 秒あたり 20,000 回の挿入は遅かったため (その速度で挿入したいデータを挿入するには時間がかかるとのことでした…)、Cassandra は大容量に対応できるとのことでした。
私の質問:
- 私がしていることに異常はありますか?何か間違っていますか?
- リングを DDoS 攻撃しているだけですか?
- 何が問題なのかをデバッグするにはどうすればよいですか?
- 誤ったクライアント、私見は、サーバーを強制終了することはできません。(そして、上記はひどく間違っているわけではありません。)これを防ぐためにできることはありますか?
¹クライアントは、ファイル記述子もゆっくりとリークしているようです。これは関係ないと思います。(クラスターと接続の両方で呼び出し.shutdown
ています。) ドライバーのソースを見ると、例外によってリークが発生する経路がたくさんあるようです。
database - hbase 列で隣接していないすべてのデータが別の新しいテーブルにコピーされる速度はどれくらいですか?
Table1 という名前の 1 つの hbase テーブルがあり、行 T1,T2,T3,...Tn 、Table2 という名前の新しいテーブルがあります。(T1,T3,T5 ...) のすべてのデータを Table1 から Table2 にコピーするにはどうすればよいですか? 行を 1 つずつ取得してから、新しいテーブルに配置するのは非常に遅いです。