問題タブ [large-data]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
database - スケーラブルで高速なテキストファイルに裏打ちされたデータベースエンジン?
タブ区切りのファイルに保存されている大量の科学データを扱ってい.tsvます。実行される一般的な操作は、いくつかの大きなファイルの読み取り、特定の列/行のみのフィルター処理、他のデータソースとの結合、計算値の追加、および結果を別の.tsvとして書き込むことです。
プレーンテキストは、その堅牢性、寿命、および自己文書化の特徴のために使用されます。データを別の形式で保存することはできません。データを開いたままにして、処理しやすくする必要があります。大量のデータ(数十TB)があり、コピーをリレーショナルデータベースにロードするのは手頃ではありません(2倍のストレージスペースを購入する必要があります)。
私は主に選択と結合を行っているので、基本的に.tsvベースのバッキングストアを備えたデータベースエンジンが必要であることに気付きました。私のデータはすべてwrite-once-read-manyであるため、トランザクションについては気にしません。主要な変換手順やデータの複製を行わずに、データをインプレースで処理する必要があります。
この方法で照会するデータはたくさんあるので、キャッシュとコンピューターのグリッドを利用して、データを効率的に処理する必要があります。
プレーンなタブ区切りファイルをバックエンドとして使用しながら、データベースのような機能を提供するシステムを知っている人はいますか?事実上すべての科学者が何らかの方法で対処するようになるという、非常に一般的な問題のように私には思えます。
django - django-admin で多数のインラインの表示と処理を改善するには?
モデルのインラインを表示するときに、多数のインラインがあると、変更ページの読み込みが遅くなり、すべてをナビゲートするのが難しくなる可能性があります。私はすでにインライン折りたたみトリックを使用しています(DjangoSnippetsにありますが、検索が機能していないため、ここでリンクを共有できません)が、名前が似ているためブラウズするのは簡単ではありません(主に数)、すべてのインラインがまだロードされています。
インラインにはある種のページネーターが必要です。また、このページネーターは、オンラインのみの順序を指定するなど、編集中の現在のオブジェクトの最も興味深いインラインを最初に表示します (アプリの他の領域で使用されるデフォルトの順序ではありません)。
UPDATE : インラインはすべて、1 つの子関連クラスのインスタンスです。
c# - 2D バイト配列として 1 つの巨大な連続バイト配列を作成できますか?
メモリ内に非常に大きな 2D バイト配列があり、
これが 1 つの巨大な連続したバイト配列であると C# をだますことができる (おそらく安全ではない) 方法はありますか? MemoryStreamこれを a に渡してから aに渡すことができるようにしたいBinaryReader。
grails - Grails の大規模なデータセットのパフォーマンスを改善するための支援が必要
このソリューションは機能しますが、パフォーマンスは予想よりも低くなります。200K 行を返すクエリには数分かかり、CPU が開発ボックスに固定されます。クエリ アナライザーで同じ*クエリを実行すると、すべての結果が 1 分未満で返されます。
DB = 私の開発マシンとは別の専用ボックス上の SQL Server 2005 サーバー。
また、SQL Server Profiler を介して、gorm/hibernate が sp_cursorprepexec と sp_cursorfetch を使用して一度に 128 行の結果を読み取っていることにも気付きました。可能であれば、カーソルを使用しないようにしたいと思います。
それが問題かどうかはわかりませんが、役立つだけです。休止状態では、スクロールを前方のみに設定することは可能ですが、grails で同様の設定を見つけるのに苦労しています。
元の休止状態の問題。
解決策: 休止状態をバイパスします。10分から15秒。
*same = SQL Server プロファイラーからカット アンド ペーストしますが、ラップする sp_cursorprepexec sproc は除外します。
mysql - MySQL:大きなテーブル分割
データベースに巨大なテーブルがあり、データベーススキームを維持しながら、それを物理的にいくつかの部分に分割したいと思います。
たとえば、テーブル名はTableNameで、2000000行あります。
そのテーブルを4つの部分に分割したいのですが、テーブルでも同じように作業したいので、
テーブルを分割した後も、以前と同じように機能します。基本的に、データベースでクエリをさまざまなスレッドで処理する必要があります。どうすればこれを達成できますか?
前もって感謝します。
gtkmm - アプリケーションをロックせずに Gtk::TreeModelColumn を大きなデータセットで埋める方法
Gtk::TreeModelColumn に大規模な (おそらくそれほど多くない - 数千のエントリ) データセットを入力する必要があります。アプリケーションをロックせずにそれを行うにはどうすればよいですか。処理を別のスレッドに入れても安全ですか? では、アプリケーションのどの部分をロックで保護する必要がありますか? Gtk::TreemodelColumn クラスだけですか、それとも Gtk::TreeView ウィジェットに配置されているのでしょうか、それとも周囲のフレームやウィンドウでさえありますか?
sql - 列名を指定せずに、あるテーブルを別のテーブルから更新するにはどうすればよいですか?
同じ構造で非常に多くのフィールド(約1000)のテーブルが2つあります。2つの操作を実行する必要があります1)2番目のテーブルからすべての行を最初に挿入します。例:
2)2番目のテーブルから最初のテーブルを更新しますが、更新の場合、更新用の適切なSQL構文が見つかりません。
次のようなクエリ:
また
無効です。
python - Pythonでブール値の大規模な(75,000項目)セットの操作を最適化する方法は?
svnmerge.pyというスクリプトがあり、これを微調整して最適化しようとしています。私はPythonはまったく初めてなので、簡単ではありません。
RevisionSet現在の問題は、スクリプトで呼び出されたクラスに関連しているようです。本質的には、整数キーのブール値の大きなハッシュテーブル (?) を作成することです。最悪の場合、現在 75,000 近くある SVN リポジトリの各リビジョンに 1 つです。
その後、そのような巨大な配列に対して集合演算 (加算、減算、交差など) を実行します。実装は最も単純な O(n) 実装であり、当然のことながら、このような大規模なセットではかなり遅くなります。連続値のスパンが長いため、データ構造全体を最適化できます。たとえば、1 から 74,000 までのすべてのキーにtrue. また、スクリプトは Python 2.2 用に書かれています。これはかなり古いバージョンであり、とにかく 2.6 を使用しているため、そこにも何かが得られる可能性があります。
これを自分でまとめようとすることもできますが、それは難しく、多くの時間がかかります。学習経験は欲しいが、今は結果の方が重要だ。私に何を提案しますか?
r - R で大規模なデータセットを読み取る方法
重複の可能性:
R で非常に大きなテーブルをデータフレームとしてすばやく読み取る
やあ、
R で大規模なデータセットを読み取ろうとすると、コンソールに次のエラーが表示されました。
大規模なデータセットを読み取る方法を知っている人はいますか? UserDailyStats.csv のサイズは約 2GB です。
javascript - 良いアイデアか悪いアイデアか: データベースを別の .js ファイルとしてロードする
ゲームのキャラクターをカスタマイズできる Web ページがあります。ブラウジング (gems) を高速化するために、gems データベース全体 (600 エントリ、247 KB) を個別の .js ファイルとしてロードします。キャッシュできるので、毎回ロードする必要はありません。
遅延に気づいていませんが、それでも悪い考えですか?
代わりに、必要なレコードをその場で ajax 取得する必要がありますか?
参考までに、私は ASP.NET MVC 2.0 を使用しています。ここでスクリプトをロードしています。
そして、ここにアクションがあります:
編集:私の主な関心事は、読み込み時間ではなく、メモリ使用量です。ブラウザによって 250 KB の JavaScript がロード/解析されると、顕著な影響がありますか?