問題タブ [bigdata]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
file - 非常に大きなJarファイルとFAT32
作業中のデスクトップアプリのチャンクについて分析を行っています。
1つの要件は、実際にはそれぞれ800Mbもの大きさで実行されているいくつかのレガシーファイル形式のi/oを実行できることです。輸入品のサイズは5Gb程度と合理的に予想されるかもしれません。
理想的には、必要なファイルをjarファイルに貼り付けて署名し、後で再インポートするために送信します。
しかし、私たちのアプリはXP Pro(FAT32)をサポートしている必要があります。これは、私が知る限り、最大ファイルサイズの制限が約4Gbです。
データを複数のチャンクに分割する必要がありますか?(したがって、何が起こっているのかを追跡するという複雑さを引き受けますか?)
sql-server - データベースのサイズが大きい
次の問題があります。データベースにバイナリを格納するデータベースがあります。データベースのサイズが大きくなる可能性があることはわかっているため、データベースからすべてのバイナリを削除し、「縮小」タスクを使用しました。このようにして、データベースがはるかに小さくなることを期待しました。結果は次のとおりです。
削除前のサイズ: 20 ギガバイト 削除後のサイズ: 25 ギガバイト (ログ ファイルを含む) 縮小後のサイズ: 13 ギガバイト
データベース内の最大のテーブルはログテーブルであり、1.3ギガであり、残りのすべてを合わせても200メガバイトかかりません...
圧縮タスクで削除できないデータがログファイルに残っている可能性がありますか? この問題の解決策はありますか?
unix - ネットワーク ドライブから 5G ログ ファイルを読み取る Scala スクリプトは、最後の x 行 (Unix の「tail」など) を読み取るためにどのように変更する必要がありますか?
ネットワーク ドライブから 5G ログ ファイルを読み取る Scala スクリプトは、最後の x 行 (Unix の「tail」など) を読み取るためにどのように変更する必要がありますか?
mysql - 各テーブルに500万を超えるレコードがあるデータベースの取得/更新/挿入の速度が遅い問題
速度低下を回避するためにデータベースを構造化する方法は?(エンジン:MyISAM)
現在、1つのテーブルに500万を超えるレコードがあるデータベースがあり、データの取得が遅くなっています。私は現在、この種のデータベースを回避するためにデータベースを構造化する方法を探しています。(データベースエンジンMyISAM)
問題を引き起こすテーブルは、それぞれに500万を超えるレコードを持つ投稿とコメントです。
日付ごとにレコードを保存するときにテキストファイルをストレージとして使用するときに、各ファイルに十分なデータが含まれているため、取得と保存のプロセスが遅くならないようにすることを考えましたが、データベースではどうすればよいかわかりません:(
データの取得、挿入、更新が遅くならないように、MySQLデータベースにデータ(それぞれ約500万レコード)を保存する方法はありますか?
「投稿」構造
クエリ:
mysql - MySQL NDBクラスターの実装の制限は何ですか?
MySQLCluster6用のNDBClusterを実装したいと思います。最小200万レコードの非常に巨大なデータ構造に対して実装したいと思います。
NDBクラスターの実装に制限があるかどうかを知りたいです。たとえば、RAMサイズ、データベースの数、またはNDBクラスターのデータベースのサイズ。
matlab - 16×(2 ^ 20)行列をMATLABに格納するための最良の方法は何ですか?
データをファイルに書き込むことを考えています。大量のデータをファイルに書き込む方法の例を誰かが持っていますか?
編集:マトリックス内のほとんどの要素はゼロであり、他の要素はuint32
です。@Jonasが提案したように、私は最も単純save()
でload()
うまくいくと思います。
postgresql - PostgreSQLのスペースの計算と節約
私は次のようなpgのテーブルを持っています:
上記の合計は、1行あたり最大50バイトです。私の経験では、上記のユーザー作成インデックスさえなくても、システムオーバーヘッドのためにさらに40%から50%が必要です。したがって、1行あたり約75バイトです。テーブルには非常に多くの行があり、場合によっては1,450億行を超える可能性があるため、テーブルは13〜14テラバイトをプッシュします。このテーブルを圧縮するために、もしあれば、どのようなトリックを使用できますか?以下の私の考えられるアイデア...
real
値をに変換しますinteger
。として保存できる場合smallint
は、フィールドごとに2バイト節約できます。
列b..mを配列に変換します。これらの列を検索する必要はありませんが、一度に1つの列の値を返すことができる必要があります。したがって、列gが必要な場合は、次のようなことができます。
配列オプションでスペースを節約できますか?速度ペナルティはありますか?
他のアイデアはありますか?
sql - 巨大なデータベースの操作について知っておくべきことは何ですか?
巨大なデータベースを操作しているときに、どのような特定の問題/解決策/アドバイス/ベストプラクティス[言葉で私を罰しないでください]が発生しているのか知りたいです。
巨大な下では、数百万行のテーブルやペタバイトのデータを含むデータベースを含むデータベースを意味します。
プラットフォーム指向の答えも素晴らしいでしょう。
sorting - ビッグデータの並べ替えと検索
データのファイルが2つあり、それぞれ100文字の行があります。ファイルA:10 8行、ファイルB:106行。そして、ファイルAにないファイルBのすべての文字列を見つける必要があります。最初は、両方のファイルをmysqlにフィードすることを考えていましたが、 108レコード
で一意のキーを作成し終えることはないようです。
これについてのご提案をお待ちしております。
python - ビッグデータ分析の開始方法
私は長年 R を使用しており、最近 Python を使い始めました。従来の RDBMS システムをデータ ウェアハウスに使用し、R/Python を計算処理に使用しているため、ビッグ データ分析に手を染める必要性を感じています。
ビッグデータの処理を開始する方法を知りたいです。- Map/Reduce と Hadoop の使用で簡単に始める方法
- R と Python のスキルを活用して、ビッグ データ分析を開始するにはどうすればよいですか。たとえば、Python Disco プロジェクトを使用します。
- RHIPE パッケージを使用して、おもちゃのデータセットと問題のある領域を見つけます。
- RDBMS タイプのデータベースから NoSQL に移行する必要があるかどうかを判断するための適切な情報を見つける
全体として、ビッグデータ分析のスキルとノウハウを少しずつ始めて、徐々に積み上げていく方法を知りたいです。
あなたの提案と推奨事項に感謝します。このクエリの一般的な性質については申し訳ありませんが、このトピックについてより多くの視点を得たいと思っています。
- ひどい