問題タブ [large-data]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - ラージDNAマイクロアレイの結果を保存および検索するためのMySQLでのDjangoの使用
私は、多数の被験者に対して最大500kの固有のプローブを備えたdnaマイクロアレイの結果を保存および検索できるdjangoアプリをセットアップしようとしています。
私がいじっていたモデルのセットアップは次のとおりです。
これを設定するためのより良い方法があるかどうか疑問に思いましたか?主題ごとに、Genotypeテーブルに500k行を作成すると思っていました。
MySQLデータベースを使用している場合、それぞれがそのテーブルに500k行を追加する多数のサブジェクトを処理できますか?
sql-server-2008 - あるSQLテーブルから別のSQLテーブルにデータを移動する最も効率的な方法は何ですか?
現在、あるSQL 20008マシンから別のマシンにデータを移動するために実行されるSSISジョブがあります。このジョブは、約 6 つのテーブルから約 200 万件のレコードを移動します。サーバーの負荷にもよりますが、これには約 5 ~ 10 分かかりますが、問題ありません。データは一時テーブルに移動されるため、サーバーへの負担以外に影響はありません。
しかし、私の問題は、そのデータをそれぞれのライブテーブルとマージしたいときです。これには、テーブルが空になってから再設定されるまでに約 15 分かかる場合があります。私が疑問に思っているのは、そのデータをテーブル間で移動する最も効率的な方法は何かということです。
現在のところ、その方法は次のとおりです。
drop tables
インデックスと制約を使用してテーブルを再構築します
insert into select データを移動し、
必要な計算を
実行します 次のコマンドを実行して、データの移動後にすべてのインデックスを再構築します。
ユーザーのダウンタイムを最小限に抑えるには、もっと良い方法が必要だと思います。私が考えていたのは、2番目のテーブルセットを作成し、準備ができたらそれらの名前を変更することでしたが、それが最善の方法であるかどうかもわかりません.
また、テーブルを削除して再作成する必要がないため、より良いマージコマンドについて読んだところです。これは、すべてのデータが利用可能なままであることを意味しますが、ほぼすべての列を見ないとレコードが変更されたかどうかを知るのは難しいです.
助けていただければ幸いです。
iphone - Iphone mapKit、大きな画像と大きなデータにより、メモリの警告とクラッシュが発生する
私はアプリに取り組んでいますが、今は立ち往生しています。これは事前の計画不足によるものだと思います。実際、アプリで大量のデータを取得することを以前は知りませんでした。そのため、アプリの最終段階でメモリ警告が表示されます。
基本的に、私は MapKit を使用してサーバーからデータを取得し、それらを配列に格納し、そのデータを使用してマップ上に何かを表示します。これは、サーバーから取得している膨大な量のデータです。
他のビューでは、サーバーから大きな画像をダウンロードし、画像に表示する大きなデータをダウンロードし、配列を使用してそのデータを保存しています。
アプリにリークがないことを確認しました。しかし、問題は、マップをズームインおよびズームアウトし、前後に移動してから再びマップをズームインおよびズームアウトすると、メモリ警告が表示され、以前のビューがアンロードされることです。問題は、以前のビューもサーバーからデータを取得することです。私のアプリのターゲット ユーザーは WIFI ではなく 3g ユーザーになるため、何度も戻ってデータ全体をサーバーから再度ダウンロードすると、非常に困難になります。
SO基本的に私の問題は、大きなデータを保存する方法ですか? MapKit のメモリ使用量を減らす方法はありますか、それとも既知のバグですか? 私を助けてください。その非常に緊急。私は長い間それで立ち往生していて、解決策を得ることができません
database - データベースの大量データの正規化
データベースに保存する必要がある大量のデータがあります。データは次のとおりです。毎月、5 つのイベントがあります。5 つのイベントはさらに 2 つの異なるサブイベントに分割され、これらは別々に保持する必要があります。つまり、毎月 10 のイベントがあります。
最上位では、5 つのイベントに異なる見出しがあり、下に、奇数番号のサブイベントに 1 つの見出しがあり、偶数番号のサブイベントに 1 つの見出しがあります。
保存する前にこのデータを正規化したいのですが、最終的なデータベース構造にたどり着くのに苦労しており、これに関するヒントを探しています。私は正規化の経験がほとんどありません(これは私が取り組んでいる個人的なプロジェクトのためのものです)が、適切に行ってからすべてを一度にデータベースにダンプしたいと思います。
編集: 要求されたデータの例:
3月20日:
イベント 1: サブイベント 1: 午前 4:30、サブイベント 2: 午前 5:00
イベント 2: サブイベント 1: 午後 12:30、サブイベント 2: 午後 1:00
イベント 3: サブイベント 1: 4:午後15時、サブイベント2:午後4時45分
イベント4:サブイベント1:午後6時15分、サブイベント2:午後6時45分
イベント5:サブイベント1:午後8時、サブイベント2:午後8時45分
すべてのイベントは、1 か月および 1 年を通してさまざまな時期に繰り返されます。
sql-server - 非常に大きなデータを格納するテーブルを設計するにはどうすればよいですか?
Oracleでテーブルを設計する必要があります。このテーブルには、1日に2〜5TBのデータが格納されます。200 TBまで増加する可能性があり、200TBを超えるとレコードがパージされます。
それをOLTPに保持することは実行可能な選択ですか、それともデータウェアハウスDBにシフトする必要がありますか?このテーブルまたはデータベースのスキーマを設計するときに留意すべき考慮事項をアドバイスしてください。
また、どちらのデータベースでも使用できるので、SQLサーバーの場合はアドバイスをお願いします。
oracle - Oracleで非常に大きなテーブルのテーブルステートメントを作成する.
テーブルに 5 TB のデータを保存する予定です。以下は、テーブルを作成するために生成したデフォルトのスクリプトです。
パラメータを変更する必要があるかどうか教えてください。
php - PHPを使用して大きな画像をブラウザに出力するには?
PHP でオンザフライで生成され、ブラウザに出力される非常に大きな画像があります。(幅 5000 ピクセル、高さ 1000 ~ 2000 ピクセルです。これは、私のサイトでの毎日のユーザー アクティビティのプロットです)。
問題は、最近ではプロットが大きすぎて、PHP スクリプトがメモリ不足のエラーを出し (生成された PNG 自体が非常に小さいため)、これが原因で画像を取得できないことです。
PNG形式のGDを使用して、この大きな画像を複数の部分に出力する方法はありますか?
(ps: サイトを実行しているホストはセーフ モードを使用しているため、構成を変更できず、デフォルトの PHP インストールを使用していると思います。)
EDIT1: 管理スクリプトです。私以外のユーザーはそれを見ません。
EDIT2: サンプル画像はこちら: http://users.atw.hu/calmarius/trash/wtfb2/x.png (IP アドレスでトラックをグループ化するオプションもあります。)
すべてのユーザーと IP のペアには、プロット上に独自の 24 時間のトラックがあります。また、すべての緑色のマークはユーザー アクティビティを示します。ご覧のとおり、この画像はトラックごとに出力できます。また、すべてを一度に出力して生成する必要はありません。
このウェブサイトはオンライン ストラテジー ゲームであり、将来的にはこのグラフを使用して複数アカウントの検出を容易にしたいと考えています。(1つしか持っていないアカウントよりも複数のアカウントを登録して利益を得ようとしているユーザー.)しかし、これは別の問題です.
データベースからリクエストログをエクスポートしてダウンロードし、プロットを作成するプログラムにデータをフィードするのが面倒なので、PHP スクリプトを使用しています。;)
matlab - 大規模なデータセットでのクラスタリング
大規模な(ギガバイト)データセットをクラスター化しようとしています。クラスター化するには、すべてのポイントから1つおきのポイントまでの距離が必要なので、N ^ 2サイズの距離行列になります。これは、私のデータセットの場合、エクサバイトのオーダーになります。もちろん、MatlabのPdistは即座に爆発します;)
最初に大きなデータのサブセットをクラスター化し、次に同様のクラスターをマージする方法はありますか?
これが役立つかどうかはわかりませんが、データは固定長のバイナリ文字列であるため、ハミング距離(Distance = string1 XOR string2)を使用して距離を計算しています。
sql-server-2005 - SQL Server 2005で最大2億行のテーブルから選択する場合、クエリへの選択にはどのくらいの時間がかかりますか?
SQL Server 2005 データベースに 193,569,270 行のテーブルがあります。テーブルには、当社の Web サイトのユーザーによって実行されるアクティビティが格納されます。テーブルは次のように定義されます。
次のインデックスがあります。
これは私が書いたクエリです:
最後にクエリを実行したとき、それを殺す前に 1 日以上実行されました。私は何かを逃したのでしょうか、それとも単にそのような時間がかかるのでしょうか?
ご協力いただきありがとうございます。
ウェイン・E・フェファー
r - Rはどのくらいのデータを処理できますか?
「処理」とは、データの複数列の行を操作することを意味します。Rは、Excel、SPSS、SASなどのツールとどのように連携しますか?Rは「ビッグデータ」(数億から数十億の行)を調べるための実行可能なツールですか?そうでない場合、大規模なデータセットの分析に最適な統計プログラミングツールはどれですか?