問題タブ [large-data]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
4 に答える
1075 参照

database - 大量のデータを迅速に処理する

私はユーザーがパラメーターを提供するWebアプリケーションに取り組んでおり、これらは最大2,000万行のデータベースから上位1000項目のリストを作成するために使用されます。一度に上位1000のアイテムすべてが必要であり、ユーザーの観点から、このランキングが多かれ少なかれ瞬時に発生する必要があります。

現在、ユーザー定義関数を備えたMySQLを使用してデータのスコアリングとランク付けを行っており、PHPはそこからデータを取得します。1M行のデータベースでテストすると、これには約8秒かかりますが、最大2,000万行のデータベースの場合でも、約2秒のパフォーマンスが必要です。最大50人の同時ユーザーに対して適切なスループットが保証されるように、この数はさらに低くすることが望ましいです。

MySQLであるかどうかに関係なく、このデータを可能な限り効率的に処理できるソフトウェアを使用して、あらゆるプロセスを受け入れることができます。プロセスの機能と制約は次のとおりです。

  • スコアリングプロセスに関連する各行のデータは、アイテムあたり約50バイトです。
  • DBへの挿入と更新はごくわずかです。
  • 各スコアは他のスコアから独立しているため、スコアを並行して計算できます。
  • パラメータとパラメータ値の数が多いため、スコアを事前に計算することはできません。
  • この方法は、複数の同時ユーザーに対して適切に拡張できる必要があります
  • サーバーの数の観点から、これに必要なコンピューティングリソースは少ないほど良いです。

ありがとう

0 投票する
1 に答える
1353 参照

c# - Linq と大量のデータの追加

sqlitedbに大量のデータを挿入する必要があります。
私は使用しLinq to Entitiesます。

大量のデータ1M+を追加するのに問題があります。
十分なメモリがないか、非常に長い時間です。

このコード - 高速ですが、大量のメモリが必要です。


このコード - リソースを大量に消費するわけではありませんが、非常に遅いです:

try-catch 構造とゴースト タイプを見逃していました。

最善の解決策を見つけるのを手伝ってください!

0 投票する
2 に答える
4414 参照

wcf - 大規模なデータ セットを返す WCF サービスでストリーミングを使用するにはどうすればよいですか?

私はWCFにかなり慣れていないので、ストリーミングがどのように機能するかを理解しようとしています.私は基本的に、データベースからいくつかの情報を返すはずのWebサービスを持っています.返されるデータは潜在的に非常に大きい.誰かができるかどうか疑問に思っていました.これがどのように行われるかの良い例を指摘してください。私の理解が正しければ、Web サービス メソッドはストリーム オブジェクトを返す必要があります。しかし、実際にデータをストリームに渡すにはどうすればよいでしょうか。各オブジェクトをシリアライズしてストリームに書き込むだけですか? もしそうなら、シリアル化はどのように正確に行われますか? 繰り返しになりますが、簡単な例を示していただければ幸いです。

0 投票する
1 に答える
911 参照

php - PHP で大量のデータを暗号化する

同じソフトの別のインスタンスにデータを送信する前にデータを暗号化する必要があるソフトウェアを開発します(もちろん復号化する必要があります)。私は最初に openssl_public_encrypt / openssl_private_decrypt を使用します。

暗号化するデータのチャンクはキーよりも大きくすることはできませんが、復号化の部分に時間がかかりすぎるためです (xdebug は、これが openssl_private_decrypt() の呼び出しであり、常に時間がかかることを示しています)。

対称アルゴリズム mcrypt_decrypt/MCRYPT_RIJNDAEL_256 (鍵を暗号化するための openssl を使用) を試してみましたが、もっと悪いです。大量のデータを安全に転送するにはどうすればよいですか? ファイルは CSV (テキスト) であり、SSH/SFTP サーバーに配置され、暗号化する必要があります。

ありがとう、
セドリック

0 投票する
3 に答える
212 参照

ruby - 大きな文字列データセットを計算するための最速のセットアップは何ですか?

私の日常業務では、文字列の大規模なデータベースで計算を実行するためのコンピューター システムのセットアップを任されています。概念実証を確立しましたが、ハードウェアおよびソフトウェア環境を最適化するための低レベルの知識がありません。この点についてのガイダンスを期待していました。

設定:

  • 文字列を含むデータベース内の 100,000 レコード
  • 文字列類似度計算を実行して、おおよその重複を探します
    • つまり、各文字列が他のすべての文字列に対して行われるため、約 50 億回の計算が行われます
  • 1000サンプル行を使用してSQLite3をデータベースとしてRubyで概念実証を書きました
  • ジョブ全体は数日以内に実行されるはずです - 速いほど良いですが、収益は減少します. これは 1 回限りのパスなので、デスクトップ セットアップで数日以内に実行できる場合は、スーパーコンピューターは必要ありません。

私が探しているもの:

  • このジョブ (および同様の性質の潜在的な将来のジョブ) を実行するカスタム ボックスを構築している場合、どのハードウェアの最適化に重点を置く必要がありますか? つまり、限られた予算を非常に高速な GPU に費やすべきでしょうか? CPU?大量の RAM ? このタイプの操作のボトルネックがどこにあるかを知るのに十分なレベルの Ruby を知りません。
  • より良いアプローチがありませんか?ソフトウェアや高価なハードウェアの大規模な購入の承認は得られません。少なくとも、この方法がこのランスルーで機能することを証明できるまでは。しかし、誰かが不正確な重複を検出するより効率的な方法を提案できますか?
0 投票する
2 に答える
2125 参照

r - Rブートパッケージ:信頼区間を取得するのに十分なメモリがありません

ブートパッケージを使用して、Rでかなり大きなブートストラップを実行しました。

私が最初にboot()を実行したとき、私はこれを手に入れました:

したがって、ブートオブジェクトを取得するには、「simple = TRUE」を使用する必要がありました。これは、boot()に最初にすべてのメモリを割り当てないように指示します(?bootによる)。数分かかりましたが、これは問題なく機能しました。

ここで、信頼区間を取得する必要があります。

同じ問題!しかし、?boot.ciによると、この関数で使用できる'simple = TRUE'フラグはありません(私は試しました)。

それで、boot.ci()を使用してこれを回避する方法はありますか?

そうでない場合は、使用できるメモリの量を増やすために何ができますか?

0 投票する
1 に答える
2907 参照

java - 大規模な疎行列の特異値分解の Java 実装

大きな疎行列に対する特異値分解 (SVD) の Java 実装を誰かが知っているかどうか疑問に思っています。潜在意味解析 (LSA) にはこの実装が必要です。

UJMP と JAMA のパッケージを試してみましたが、行数 >= 1000 および列数 >= 500 のときに詰まります。誰かが私に疑似コードまたは何かを指摘していただければ、それは大歓迎です。

0 投票する
1 に答える
3926 参照

c# - REST 経由で大量のデータを送信する - ベスト プラクティス

アプリケーションのある部分から別のサーバー上のそのアプリケーションの別の部分に、REST 経由で 100,000 のレコードを送信する良い方法はありますか。

1 つの POST 要求で PKEY データを送信し、PUT を介して各レコードを一括で入力することを考えていました。それでも、適切に行う方法が明確にわかりません。

3 つの質問があります。

a) 提案された方法は大丈夫ですか? ベストプラクティスについてはどうですか? b) ポストしてから ? c) リクエストごとに 1 つ (つまり 100,000 リクエスト) 実行するか、content-length を介してデータをチェックしてもかまいません。:D

前もって感謝します。バート

0 投票する
1 に答える
115 参照

data-visualization - 大規模データの探索と分析のためのアーキテクチャ

私たちは、大規模な一連のイベント (数百万のオーダー) 用のデータ探索システムを構築することを計画しています。イベントは、時間、緯度/経度座標、および type や userId などのドメイン制約値を持つその他のプロパティで構成されます。

目標は、3 つのパネルでデータを視覚化することです。

  • マップ (マーカーまたはヒート マップでクラスター化されたイベント)
  • 時間ヒストグラム (日付ごとのイベントの分布)
  • 属性ヒストグラム (属性のヒストグラム: タイプ、ユーザーなど)

ユーザーは、属性 (ファセット)、時間間隔、または空間範囲でフィルタリングすることにより、対話的にデータをドリルダウンします。

OLAP サーバーを考えていますが、これが最も適切なソリューションかどうかはわかりません。

このような大規模なデータセットでこの操作を処理できるアーキテクチャ/システムはどれですか? これに関する経験や提案はありますか?できればオープンソースのコンポーネントを使用してください。

ありがとう

0 投票する
1 に答える
912 参照

wcf - WCF を使用して大規模なレポート データセットを提供する

リモート データベースからレポート データにアクセスするアプリケーションが必要です。現在、このデータベースの I/O を処理する WCF サービスがあります。通常、アプリケーションは WCF サービスとそれ自体の間で小さなメッセージを送受信するだけですが、ここでは、そのアクティビティに関する履歴レポートを実行する必要があります。その結果、数百から数千のレコードが作成される可能性があります。ストリーミングについて話しているhttp://msdn.microsoft.com/en-us/library/ms733742.aspxに出くわしましたが、メッセージのセグメント化についても言及しており、これ以上の情報は見つかりませんでした。このような大量のデータを WCF サービスから送信する最良の方法は何ですか?