問題タブ [data-dump]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - ファイルを分割すると、サイズが劇的に増加します
4GB の Wiktionary XML データ ダンプを小さなファイルに分割し、オーバーラップせずに Python で処理し、個別のページを保存しています (...)。
異なるファイルに分割された同じ情報が、18 GB 以上に膨れ上がっています。
これはなぜでしょうか?そして、これを回避する方法はありますか?
firebird - FBexport - isc_dsql_prepare が失敗しました - 出力を作成できません
fbexport という firebird ツールを使用して、DB からテーブル データのダンプを作成しています。私がやったことは次のとおりです。
- cmd を起動し、fbexport があるディレクトリに移動します。
コマンドを入力します。
FBExport.exe -D "c:\DB.GDB" -U sysdba –P マスターキー -Si -V WIZYTY -F test.out
残念ながら、私はエラーを受け取りました:
それを機能させる方法はありますか?
python - 非常に大きな書き込み集中型の MySQL インポート
MySQL データベース (InnoDB エンジン) にインポートされている、約 400 GB の大量のプレーン テキスト ファイルのセットがあります (私が考えていること)。.txt ファイルのサイズは 2GB から 26GB で、各ファイルはデータベース内のテーブルを表します。.txt ファイルを解析して SQL ステートメントを作成する Python スクリプトが与えられました。私は、次の仕様のこのタスク専用のマシンを持っています。
- OS - Windows 10
- 32GBのRAM
- 4TBのハードドライブ
- i7 3.40 GHz プロセッサー
このインポートを最適化して、可能な限り迅速かつダーティにしたいと考えています。スタック O の質問、MySQL ドキュメント、およびその他のソースに基づいて、MySQL my.ini ファイルの次の構成設定を変更しました。
マシンのリソースのかなりの部分を使用するように MySQL に指示する、私が見逃した構成ファイルの他の設定 (ログやキャッシュに関するものかもしれません) はありますか? 私が見逃している別のボトルネックはありますか?
(サイドノート: これが関連しているかどうかはわかりません - インポートを開始すると、mysqld
プロセスがスピンアップしてシステムのメモリの約 13-15% を使用しますが、Python スクリプトがインポートを続行するのを停止すると、プロセスは決してパージされないようです。 . これはログとフラッシュの設定をいじった結果なのだろうか. 事前に助けてくれてありがとう.)
(編集)
テーブルにデータを入力する Python スクリプトの関連部分を次に示します。スクリプトは、50,000 レコードごとに接続、コミット、および接続を閉じているようです。関数の最後にあるを削除してconn.commit()
、MySQL にコミットを処理させることはできますか? 以下のコメントwhile (true)
はスクリプトの作成者からのもので、max_allowed_packet サイズを超えないようにその数を調整しました。
marklogic - 巨大なファイルを MarkLogic DB にダンプするより良い方法
私はMarkLogicを初めて使用し、条件に基づくフィルターなどの変換を使用して巨大なcsv /テキストデータをダンプするように評価しています。私が知る限り、2つの方法を使用してデータをダンプできます。
これを達成するためのより良い方法はどれですか?または、私が知らない他のものがある場合。
前もって感謝します。
sqlite - 選択クエリを SQL 挿入コマンドとして出力できる SQLite コマンドはありますか?
Zeoslib を使用して SQLite でメモリ内データベースを作成しています。プログラムを閉じるときにデータベースをディスクに保存するか、定期的にファイルにダンプする必要があります。
SELECT
SQLite3 プログラムはメモリ内データベースを処理できないため、クエリ の出力をINSERT
ステートメントとしてエクスポートする SQLite を取得する方法はありますか?
PS。sqlite3
このスレッドに示されているように、メモリ内データベースをディスクにダンプできますが、メモリ内データベースは別のアプリケーションによって作成されているため、例を機能させる方法がわかりません。
oracle11g - 並列度がNに設定されている場合、Oracle DataDumpがN-1ファイルを作成するのはなぜですか?
私は何を間違っていますか?
PARALLEL=4 に設定しましたが、作成されるファイルの数は 3 です。
4 つのファイルを期待していましたが、3 つになりました:
python - パンダを使用した「so dump」からの文の抽出
プロジェクトの一環として、スタック オーバーフロー ダンプを使用することになっています。現在、初心者のプログラマーである私は、Pandas ライブラリーで次のタスクを実行する際に問題に直面しています。
次のような .csv ファイルがあります。
次のような別の .csv ファイルを取得したいと考えています。