“large-data”の関連問題_Stack Overflow日本語サイト

0 投票する

7 に答える

3226 参照

database - スケーラブルで高速なテキストファイルに裏打ちされたデータベースエンジン？

タブ区切りのファイルに保存されている大量の科学データを扱ってい.tsvます。実行される一般的な操作は、いくつかの大きなファイルの読み取り、特定の列/行のみのフィルター処理、他のデータソースとの結合、計算値の追加、および結果を別の.tsvとして書き込むことです。

プレーンテキストは、その堅牢性、寿命、および自己文書化の特徴のために使用されます。データを別の形式で保存することはできません。データを開いたままにして、処理しやすくする必要があります。大量のデータ（数十TB）があり、コピーをリレーショナルデータベースにロードするのは手頃ではありません（2倍のストレージスペースを購入する必要があります）。

私は主に選択と結合を行っているので、基本的に.tsvベースのバッキングストアを備えたデータベースエンジンが必要であることに気付きました。私のデータはすべてwrite-once-read-manyであるため、トランザクションについては気にしません。主要な変換手順やデータの複製を行わずに、データをインプレースで処理する必要があります。

この方法で照会するデータはたくさんあるので、キャッシュとコンピューターのグリッドを利用して、データを効率的に処理する必要があります。

プレーンなタブ区切りファイルをバックエンドとして使用しながら、データベースのような機能を提供するシステムを知っている人はいますか？事実上すべての科学者が何らかの方法で対処するようになるという、非常に一般的な問題のように私には思えます。

2010-07-29T20:54:34.003

0 投票する

1 に答える

704 参照

django - django-admin で多数のインラインの表示と処理を改善するには?

モデルのインラインを表示するときに、多数のインラインがあると、変更ページの読み込みが遅くなり、すべてをナビゲートするのが難しくなる可能性があります。私はすでにインライン折りたたみトリックを使用しています（DjangoSnippetsにありますが、検索が機能していないため、ここでリンクを共有できません）が、名前が似ているためブラウズするのは簡単ではありません（主に数)、すべてのインラインがまだロードされています。

インラインにはある種のページネーターが必要です。また、このページネーターは、オンラインのみの順序を指定するなど、編集中の現在のオブジェクトの最も興味深いインラインを最初に表示します (アプリの他の領域で使用されるデフォルトの順序ではありません)。

UPDATE : インラインはすべて、1 つの子関連クラスのインスタンスです。

django django-admin inline large-data

2010-09-04T22:29:48.947

0 投票する

6 に答える

1793 参照

c# - 2D バイト配列として 1 つの巨大な連続バイト配列を作成できますか?

メモリ内に非常に大きな 2D バイト配列があり、

これが 1 つの巨大な連続したバイト配列であると C# をだますことができる (おそらく安全ではない) 方法はありますか? MemoryStreamこれを a に渡してから aに渡すことができるようにしたいBinaryReader。

c#memorystream large-data

2010-09-06T12:37:38.493

0 投票する

5 に答える

7256 参照

grails - Grails の大規模なデータセットのパフォーマンスを改善するための支援が必要

このソリューションは機能しますが、パフォーマンスは予想よりも低くなります。200K 行を返すクエリには数分かかり、CPU が開発ボックスに固定されます。クエリアナライザーで同じ*クエリを実行すると、すべての結果が 1 分未満で返されます。

DB = 私の開発マシンとは別の専用ボックス上の SQL Server 2005 サーバー。

また、SQL Server Profiler を介して、gorm/hibernate が sp_cursorprepexec と sp_cursorfetch を使用して一度に 128 行の結果を読み取っていることにも気付きました。可能であれば、カーソルを使用しないようにしたいと思います。

それが問題かどうかはわかりませんが、役立つだけです。休止状態では、スクロールを前方のみに設定することは可能ですが、grails で同様の設定を見つけるのに苦労しています。

元の休止状態の問題。

解決策: 休止状態をバイパスします。10分から15秒。

*same = SQL Server プロファイラーからカットアンドペーストしますが、ラップする sp_cursorprepexec sproc は除外します。

grails grails-orm large-data

2010-09-16T19:35:23.790

0 投票する

2 に答える

4185 参照

mysql - MySQL：大きなテーブル分割

データベースに巨大なテーブルがあり、データベーススキームを維持しながら、それを物理的にいくつかの部分に分割したいと思います。

たとえば、テーブル名はTableNameで、2000000行あります。

そのテーブルを4つの部分に分割したいのですが、テーブルでも同じように作業したいので、

テーブルを分割した後も、以前と同じように機能します。基本的に、データベースでクエリをさまざまなスレッドで処理する必要があります。どうすればこれを達成できますか？

前もって感謝します。

mysql large-data

2010-09-20T12:39:02.587

0 投票する

1 に答える

370 参照

gtkmm - アプリケーションをロックせずに Gtk::TreeModelColumn を大きなデータセットで埋める方法

Gtk::TreeModelColumn に大規模な (おそらくそれほど多くない - 数千のエントリ) データセットを入力する必要があります。アプリケーションをロックせずにそれを行うにはどうすればよいですか。処理を別のスレッドに入れても安全ですか? では、アプリケーションのどの部分をロックで保護する必要がありますか? Gtk::TreemodelColumn クラスだけですか、それとも Gtk::TreeView ウィジェットに配置されているのでしょうか、それとも周囲のフレームやウィンドウでさえありますか?

gtkmm treemodel large-data

user283145

2010-10-07T07:55:46.243

0 投票する

2 に答える

4855 参照

sql - 列名を指定せずに、あるテーブルを別のテーブルから更新するにはどうすればよいですか？

同じ構造で非常に多くのフィールド（約1000）のテーブルが2つあります。2つの操作を実行する必要があります1）2番目のテーブルからすべての行を最初に挿入します。例：

2）2番目のテーブルから最初のテーブルを更新しますが、更新の場合、更新用の適切なSQL構文が見つかりません。

次のようなクエリ：

また

無効です。

sql sql-server-2005 sql-update large-data

2010-10-08T14:56:19.317

0 投票する

5 に答える

372 参照

python - Pythonでブール値の大規模な(75,000項目)セットの操作を最適化する方法は?

svnmerge.pyというスクリプトがあり、これを微調整して最適化しようとしています。私はPythonはまったく初めてなので、簡単ではありません。

RevisionSet現在の問題は、スクリプトで呼び出されたクラスに関連しているようです。本質的には、整数キーのブール値の大きなハッシュテーブル (?) を作成することです。最悪の場合、現在 75,000 近くある SVN リポジトリの各リビジョンに 1 つです。

その後、そのような巨大な配列に対して集合演算 (加算、減算、交差など) を実行します。実装は最も単純な O(n) 実装であり、当然のことながら、このような大規模なセットではかなり遅くなります。連続値のスパンが長いため、データ構造全体を最適化できます。たとえば、1 から 74,000 までのすべてのキーにtrue. また、スクリプトは Python 2.2 用に書かれています。これはかなり古いバージョンであり、とにかく 2.6 を使用しているため、そこにも何かが得られる可能性があります。

これを自分でまとめようとすることもできますが、それは難しく、多くの時間がかかります。学習経験は欲しいが、今は結果の方が重要だ。私に何を提案しますか？

python optimization python-2.6 large-data

2010-10-19T10:51:29.503

0 投票する

3 に答える

8232 参照

r - R で大規模なデータセットを読み取る方法

重複の可能性:
R で非常に大きなテーブルをデータフレームとしてすばやく読み取る

やあ、

R で大規模なデータセットを読み取ろうとすると、コンソールに次のエラーが表示されました。

大規模なデータセットを読み取る方法を知っている人はいますか? UserDailyStats.csv のサイズは約 2GB です。

r large-data

2010-10-19T12:01:48.417

0 投票する

3 に答える

351 参照

javascript - 良いアイデアか悪いアイデアか: データベースを別の .js ファイルとしてロードする

ゲームのキャラクターをカスタマイズできる Web ページがあります。ブラウジング (gems) を高速化するために、gems データベース全体 (600 エントリ、247 KB) を個別の .js ファイルとしてロードします。キャッシュできるので、毎回ロードする必要はありません。

遅延に気づいていませんが、それでも悪い考えですか?
代わりに、必要なレコードをその場で ajax 取得する必要がありますか?

参考までに、私は ASP.NET MVC 2.0 を使用しています。ここでスクリプトをロードしています。

そして、ここにアクションがあります：

編集:私の主な関心事は、読み込み時間ではなく、メモリ使用量です。ブラウザによって 250 KB の JavaScript がロード/解析されると、顕著な影響がありますか?

javascript large-data

2010-11-02T04:03:03.040

問題タブ [large-data]

解決策: 休止状態をバイパスします。10分から15秒。

Reference