問題タブ [large-data]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Pythonで大きなデータプールを処理する
私は人々の行動を研究することを目的とした学術プロジェクトに取り組んでいます。
プロジェクトは3つの部分に分けられます:
- 一部のリモートソースからデータを読み取り、それを使用してローカルデータプールを構築するプログラム。
- このデータプールを検証し、一貫性を保つためのプログラム
- 人々がデータを読み取ったり操作したりできるようにするためのWebインターフェース。
データは、すべてID番号を持ち、身長、体重、年齢などのいくつかの特性を持つ人々のリストで構成されています。
このデータから簡単にグループを作成する必要があり(たとえば、すべて特定の年齢、または高さの範囲)、データは数TBの大きさです(ただし、2〜3 GBの小さなサブセットでは減らすことができます)。
私はプロジェクトの背後にある理論的なことについて強いバックグラウンドを持っていますが、私はコンピューター科学者ではありません。私はjava、C、Matlabを知っていますが、今はpythonを学んでいます。
Pythonは簡単そうに見え、Javaの冗長性を大幅に減らすので、Pythonを使用したいと思います。問題は、データプールをどのように処理するのか疑問に思っていることです。
私はデータベースの専門家ではありませんが、ここでデータベースが必要だと思います。どのツールを使うべきだと思いますか?
目的はデータのセットに非常に高度な数学関数を実装することであるため、ソースコードの複雑さを軽減したいことを忘れないでください。速度は問題ではありません。
python - データをレプリケートせずに NumPy 配列を繰り返しますか?
データを1000回複製せずに、別の1D配列を1000回連続して繰り返す1D NumPy配列を作成したいと思います。
出来ますか?
それが役立つ場合は、両方の配列を不変として扱うつもりです。
database - クリックストリームデータをほぼリアルタイムで保存およびエクスポートする最良の方法は何ですか?
多くのヒットを記録している Web サイトがあるとします。レポートや監視の目的で使用できるように、クリック データをデータベースに保存する必要があります。クリック データには、誰がユーザーをこのサイトに誘導したか、ユーザーがどこから来たか、何時に来たかなどの情報が含まれます。このデータを保存して分析する方法はありますか。サイトのパフォーマンスの概要を 10 分ごとに取得します。この目的に最適なデータベースの種類と、このデータから意味のある情報を迅速に生成できる分析ツールの種類。私が考えている分析のオプションの 1 つは、map-reduce のバリエーションを使用して、このデータに対してクエリを実行することです。
c - Cで非常に大きな配列をソートする方法
long long
私は C で400 万のオーダーでソートしたいと考えています。通常malloc()
、配列として使用して呼び出すバッファだけですが、 qsort()
400 万 * 8 バイトは連続したメモリの 1 つの巨大なチャンクです。
これを行う最も簡単な方法は何ですか? これについては、純粋な速度よりも使いやすさを評価します。私はライブラリを使用したくないので、結果は Windows と Linux の両方で適度なネットブックで実行する必要があります。
php - 非常に多くの値を比較するための効率的な方法php
こんにちは私は非常に多くの値を比較することになっています、私は配列を使用しましたが、メモリが不足しています。配列の値は約5000000であり、すべての値に対して再び5000000のループが実行されます。つまり、5000000x5000000サイクルが実行されます。
私がしているのは、単に2つのループを実行することです。このプログラムはメモリが原因で停止するため、これを行うための効率的な方法を教えてください。
mysql - 大きなデータを含むテーブルのmysqlクエリにMINUSを効率的に適用する方法
私は次のように2つのテーブルを持っています-
どちらにも、数百万ものデータが大量にあります。
私が望んでいるのは、結果セットにマイナスを適用することでした。
例えば、
ID:1のGroup1からすべてのユーザーを取得したいマイナスID:2のGroup2とID:3のGroup3のすべてのユーザーを取得したい
どうすれば効率的にそれを行うことができますか?クエリは可能な限り高速に実行されます。
アップデート
私が欲しいのはこんな感じです-
メンバーテーブル'nl_members'に、1つ以上のグループに関連付けられている可能性のあるすべてのメンバーのリストを保持します。
メンバーのグループの関連付けごとに、「nl_member_group_xref」テーブルに行があります。
したがって、メンバーが3つのグループに関連付けられている場合、member_group_xrefテーブルには3つのエントリがあります。
今私が欲しいのは、すべてのメンバーをグループ1に含め、メンバーがグループ2とグループ3にも属している場合はメンバーを除外することです。
お役に立てれば。
php - 大規模なデータセットのサーバーキャッシングとクライアントキャッシングの違いは?
私はmysqlを使用してPHPでプロジェクトを実装しています。現在、私は多くのデータを持っていませんが、将来、大きなデータセットを持っているときにそれを疑問に思っていました。テーブルでの検索が遅くなります。そのため、検索時間を短縮するために、キャッシュ手法を考えていました。大規模なデータセットには、クライアントとサーバーのどちらのキャッシュが適していますか?
ありがとう、アビー
database - phpmyadmin での非常に大きな mysql データベースのインポート/エクスポート
phpmyadmin に 3000000 レコードのデータベースがあります。これを別のPCにエクスポートしたい。これをエクスポートすると、.sqlファイルにエクスポートされた200000エントリのみがエクスポートされ、他のPCにもインポートされません。
php - PHP を使用してサーバーに送信できるテキストの長さを制限する
HTMLを使用してユーザーフォームでこれを行う方法を知っています。ただし、悪意のあるユーザーは、そのフォームを通過してサーバー アクション ページを呼び出し、異常に大きなサイズのテキストを送信することができます。
サーバーからのそのようなリクエストを拒否する方法はありますか。おそらく、巨大なファイルのアップロードと同様に、実際に到着する前に、到着する POST データのサイズを事前に認識できるメカニズムが存在します。
c# - 大きなデータを扱う?
私はアプリケーションにWinFormsとC#を使用しており、データは主にいくつかの文字列、整数、および多くのリストです。今はそれらをxmlファイルとテキストファイルに保存していますが、データの読み取りに時間がかかりすぎることがわかりました。XmlWriterとXmlReaderを使用しています。たとえば、解析する合計2〜3 mbの4つのxmlファイルと、その内容を一度に読み取る最大250のテキストがあります。読み込みには3〜4分かかり、スレッドは使用していません。これは正常ですか、それとも何か他のことが起こっていますか?データを保存するために他の方法を使用する必要がありますか?スレッドを1つだけ使用する必要がありますか?
編集私は問題を見つけました。それは読書とは何の関係もありませんでした(私は思います)。とにかく、私のデータが数MBを超えないことを前提として、データベースを使用する必要がありますか、それともxmlで問題ありませんか?