“bigdata”の関連問題_Stack Overflow日本語サイト

0 投票する

2 に答える

169 参照

file - 非常に大きなJarファイルとFAT32

作業中のデスクトップアプリのチャンクについて分析を行っています。

1つの要件は、実際にはそれぞれ800Mbもの大きさで実行されているいくつかのレガシーファイル形式のi/oを実行できることです。輸入品のサイズは5Gb程度と合理的に予想されるかもしれません。

理想的には、必要なファイルをjarファイルに貼り付けて署名し、後で再インポートするために送信します。

しかし、私たちのアプリはXP Pro（FAT32）をサポートしている必要があります。これは、私が知る限り、最大ファイルサイズの制限が約4Gbです。

データを複数のチャンクに分割する必要がありますか？（したがって、何が起こっているのかを追跡するという複雑さを引き受けますか？）

2009-04-15T14:01:41.003

0 投票する

4 に答える

2937 参照

sql-server - データベースのサイズが大きい

次の問題があります。データベースにバイナリを格納するデータベースがあります。データベースのサイズが大きくなる可能性があることはわかっているため、データベースからすべてのバイナリを削除し、「縮小」タスクを使用しました。このようにして、データベースがはるかに小さくなることを期待しました。結果は次のとおりです。

削除前のサイズ: 20 ギガバイト削除後のサイズ: 25 ギガバイト (ログファイルを含む) 縮小後のサイズ: 13 ギガバイト

データベース内の最大のテーブルはログテーブルであり、1.3ギガであり、残りのすべてを合わせても200メガバイトかかりません...

圧縮タスクで削除できないデータがログファイルに残っている可能性がありますか? この問題の解決策はありますか?

sql-server database size bigdata shrink

anon

2009-08-11T10:00:24.507

0 投票する

3 に答える

798 参照

unix - ネットワークドライブから 5G ログファイルを読み取る Scala スクリプトは、最後の x 行 (Unix の「tail」など) を読み取るためにどのように変更する必要がありますか?

ネットワークドライブから 5G ログファイルを読み取る Scala スクリプトは、最後の x 行 (Unix の「tail」など) を読み取るためにどのように変更する必要がありますか?

unix scala scripting bigdata

2009-11-03T18:31:16.453

0 投票する

3 に答える

382 参照

mysql - 各テーブルに500万を超えるレコードがあるデータベースの取得/更新/挿入の速度が遅い問題

速度低下を回避するためにデータベースを構造化する方法は？（エンジン：MyISAM）

現在、1つのテーブルに500万を超えるレコードがあるデータベースがあり、データの取得が遅くなっています。私は現在、この種のデータベースを回避するためにデータベースを構造化する方法を探しています。（データベースエンジンMyISAM）

問題を引き起こすテーブルは、それぞれに500万を超えるレコードを持つ投稿とコメントです。

日付ごとにレコードを保存するときにテキストファイルをストレージとして使用するときに、各ファイルに十分なデータが含まれているため、取得と保存のプロセスが遅くならないようにすることを考えましたが、データベースではどうすればよいかわかりません:(

データの取得、挿入、更新が遅くならないように、MySQLデータベースにデータ（それぞれ約500万レコード）を保存する方法はありますか？

「投稿」構造

クエリ：

mysql database-design performance database bigdata

2009-12-25T15:30:45.250

0 投票する

2 に答える

13849 参照

mysql - MySQL NDBクラスターの実装の制限は何ですか？

MySQLCluster6用のNDBClusterを実装したいと思います。最小200万レコードの非常に巨大なデータ構造に対して実装したいと思います。

NDBクラスターの実装に制限があるかどうかを知りたいです。たとえば、RAMサイズ、データベースの数、またはNDBクラスターのデータベースのサイズ。

mysql cluster-computing bigdata mysql6

2009-12-30T14:34:07.900

0 投票する

3 に答える

497 参照

matlab - 16×（2 ^ 20）行列をMATLABに格納するための最良の方法は何ですか？

データをファイルに書き込むことを考えています。大量のデータをファイルに書き込む方法の例を誰かが持っていますか？

編集：マトリックス内のほとんどの要素はゼロであり、他の要素はuint32です。@Jonasが提案したように、私は最も単純save()でload()うまくいくと思います。

matlab matrix file-io bigdata

2010-05-24T19:44:08.257

0 投票する

4 に答える

34485 参照

postgresql - PostgreSQLのスペースの計算と節約

私は次のようなpgのテーブルを持っています：

上記の合計は、1行あたり最大50バイトです。私の経験では、上記のユーザー作成インデックスさえなくても、システムオーバーヘッドのためにさらに40％から50％が必要です。したがって、1行あたり約75バイトです。テーブルには非常に多くの行があり、場合によっては1,450億行を超える可能性があるため、テーブルは13〜14テラバイトをプッシュします。このテーブルを圧縮するために、もしあれば、どのようなトリックを使用できますか？以下の私の考えられるアイデア...

real値をに変換しますinteger。として保存できる場合smallintは、フィールドごとに2バイト節約できます。

列b..mを配列に変換します。これらの列を検索する必要はありませんが、一度に1つの列の値を返すことができる必要があります。したがって、列gが必要な場合は、次のようなことができます。

配列オプションでスペースを節約できますか？速度ペナルティはありますか？

他のアイデアはありますか？

postgresql database-design storage bigdata

2010-06-03T13:44:57.080

0 投票する

6 に答える

2907 参照

sql - 巨大なデータベースの操作について知っておくべきことは何ですか？

巨大なデータベースを操作しているときに、どのような特定の問題/解決策/アドバイス/ベストプラクティス[言葉で私を罰しないでください]が発生しているのか知りたいです。

巨大な下では、数百万行のテーブルやペタバイトのデータを含むデータベースを含むデータベースを意味します。

プラットフォーム指向の答えも素晴らしいでしょう。

sql database database-design bigdata

2010-09-14T18:06:07.903

0 投票する

3 に答える

1338 参照

sorting - ビッグデータの並べ替えと検索

データのファイルが2つあり、それぞれ100文字の行があります。ファイルA：10 ⁸行、ファイルB：106^行。そして、ファイルAにないファイルBのすべての文字列を見つける必要があります。最初は、両方のファイルをmysqlにフィードすることを考えていましたが、 ¹⁰⁸レコード
で一意のキーを作成し終えることはないようです。

これについてのご提案をお待ちしております。

sorting search bigdata

2010-10-13T18:15:25.620

0 投票する

2 に答える

18193 参照

python - ビッグデータ分析の開始方法

私は長年 R を使用しており、最近 Python を使い始めました。従来の RDBMS システムをデータウェアハウスに使用し、R/Python を計算処理に使用しているため、ビッグデータ分析に手を染める必要性を感じています。

ビッグデータの処理を開始する方法を知りたいです。- Map/Reduce と Hadoop の使用で簡単に始める方法

R と Python のスキルを活用して、ビッグデータ分析を開始するにはどうすればよいですか。たとえば、Python Disco プロジェクトを使用します。
RHIPE パッケージを使用して、おもちゃのデータセットと問題のある領域を見つけます。
RDBMS タイプのデータベースから NoSQL に移行する必要があるかどうかを判断するための適切な情報を見つける

全体として、ビッグデータ分析のスキルとノウハウを少しずつ始めて、徐々に積み上げていく方法を知りたいです。

あなたの提案と推奨事項に感謝します。このクエリの一般的な性質については申し訳ありませんが、このトピックについてより多くの視点を得たいと思っています。

ひどい

python r hadoop bigdata

2010-12-01T08:45:49.970

問題タブ [bigdata]

Reference