“bigdata”の関連問題_Stack Overflow日本語サイト

0 投票する

3 に答える

4383 参照

r - combn（）とbigmemoryパッケージを使用して文字列の組み合わせの非常に大きな行列を生成する

1,344個の一意の文字列のベクトルxがあります。順序に関係なく、3つの値のすべての可能なグループを提供するマトリックスを生成し、それをcsvにエクスポートしたいと思います。

64ビットUbuntuを使用したm1.largeインスタンスのEC2でRを実行しています。combn（x、3）を使用すると、メモリ不足エラーが発生します。

結果の行列のサイズはC1344,3=403,716,544行と3列です。これはcombn（）関数の結果の転置です。

bigmemoryパッケージを使用して、big.matrixでバックアップされたファイルを作成し、combn（）関数の結果を割り当てることを考えました。事前に割り当てられた大きなマトリックスを作成できます。

しかし、値test <- combn(x, 3)を割り当てようとすると、同じようになります。Error: cannot allocate vector of size 9.0 Gb

の結果を強制しようとしましcombn(x,3)たが、combn（）関数がエラーを返しているため、big.matrix関数も機能しないと思います。

これらの2つの機能を組み合わせて、必要なものを取得する方法はありますか？これを達成する他の方法はありますか？ありがとう。

r combinatorics bigdata

2010-12-20T19:47:55.303

0 投票する

2 に答える

3528 参照

text-editor - ギガバイトサイズのファイル用のテキストエディタ

重複の可能性：
大きな（巨大な、巨大な、大きな）テキストファイルを開くためのテキストエディタ

テキストエディタで大きなテキストファイルを開くのを見ましたが、その質問はメガバイトサイズのファイルに関するものでした。私は7GBのcsvファイルを使用していますが、vimやgeditでさえ開くのに長い時間がかかることがわかりました。

ギガバイトサイズのファイルにはどのテキストエディタを使用しますか？

私が得ることができるアドバイスに感謝します。

text-editor bigdata

2010-12-21T07:52:40.727

0 投票する

3 に答える

8509 参照

c# - プログラムで MaxItemsInObjectGraph を設定する

クライアント側とサーバー側で WCF を使用するアプリケーションがあります。大量のデータを返すとエラーが発生します。

パラメータhttp://tempuri.org/:GetCurrentDatabaseObjectsResultをシリアル化しようとしてエラーが発生しました。InnerException メッセージは、「オブジェクトグラフでシリアライズまたはデシリアライズできる項目の最大数は 65535 です」でした。オブジェクトグラフを変更するか、MaxItemsInObjectGraph クォータを増やしてください。'。詳細については、InnerException を参照してください。

(主な重要なことは、MaxItemsInObjectGraph を増やす必要があることです)。

この記事を見つけました: Silverlight アプリケーションからプログラムで maxItemsInObjectGraph プロパティを設定するにはどうすればよいですか? しかし、これはクライアント側のみのようで、サーバーでこれを行う必要があります。

c#.net wcf bigdata

2011-01-06T06:37:33.057

0 投票する

2 に答える

194 参照

hadoop - Hadoop クラスターをセットアップするには、半構造化されたデータのおよそどのくらいの量があれば十分ですか?

Hadoop は一般的に半構造化データ処理の代替手段であるだけではありません。タブ区切りのプレーンなデータと、一連の UNIX ツール (cut、grep、sed など) および手書きの Python スクリプトを使用して、多くのことを行うことができます。しかし、非常に大量のデータを取得することがあり、処理時間が 20 ～ 30 分かかることもあります。データセットを動的に実験したり、セミアドホッククエリを実行したりしたいので、私には受け入れられません。

では、このアプローチの費用対効果の観点から、Hadoop クラスターを設定するのに十分なデータ量はどれくらいとお考えですか?

hadoop bigdata

2011-01-11T11:37:24.373

0 投票する

2 に答える

483 参照

database - 膨大な数の潜在的に大規模なネストされたハッシュ構造を格納するには、どのデータベースを使用すればよいですか?

多数 (数億から数千億) の任意にネストされたハッシュ構造 (通常は 4 ～ 6 レベル) を格納し、いくつかの属性を最上位レベルに格納したいと考えています。ネストされたハッシュ内でクエリを実行する必要はなく、最上位の属性に対してのみクエリを実行します。通常、最上位の属性で完全に一致する場合は、コードを記述せずにクエリを実行できる必要があります。レコードを更新するとき、変更されたサブハッシュ構造の部分のみを更新でき、レコード全体を読み書きする必要がないようにしたいと考えています。データベースには、C、Ruby、および Python のバインディング/ドライバーが必要です。

個々のアイテムに 4MB (そして間もなく 8MB または 16MB になる) の制限があることを除けば、Mongodb は理想的であるように思われます。これらのアイテムのほとんどは小さいものですが、一部は 100 ～ 200 MB で、それより大きくなる可能性があります。

これらの条件に一致する別のデータベースはありますか?

database nosql bigdata

2011-02-08T02:13:06.230

0 投票する

1 に答える

1430 参照

database - ハッシュの非常に大規模なデータベースを作成するためのヒント

質問：冗長性の高い強力なハッシュでインデックス付けされた非常に大規模な（数テラバイト）データベースを処理するために、どのような解決策またはヒントが必要ですか？

ある種の逆ストレージ？

Postgresでできることはありますか？

必要に応じて、自分のストレージをロールバックする準備ができています。

（ヒント：オープンソースである必要があり、Javaでなく、Linuxで実行されている必要があり、ディスクベースである必要があります。C/ C ++ / Pythonを推奨します）

詳細：

各レコードに次のような非常に大きなデータベースを作成する必要があります。

いくつかの主キーを含むいくつかの任意のメタデータ（いくつかのテキストフィールド）
1つのハッシュ（128ビットハッシュ、強力なMD5のような）

レコードの量は、私が非常に大きいと見なすものです：数百から数千億）。行間でハッシュの大幅な冗長性があります（レコードの40％以上でハッシュが少なくとも別のレコードと共有されており、一部のハッシュは100Kレコードに存在します）

主な使用法は、ハッシュで検索してからメタデータを取得することです。二次的な使用法は、主キーで検索してからメタデータを取得することです。

これは分析タイプのデータベースであるため、全体的な負荷は中程度で、ほとんどが読み取り、少数の書き込み、ほとんどがバッチ書き込みです。

現在のアプローチは、主キーにインデックスを付け、ハッシュ列にインデックスを付けて、Postgresを使用することです。テーブルは、ハッシュのインデックスをオフにしてバッチでロードされます。

すべてのインデックスはbtreeです。ハッシュ列のインデックスは、テーブル自体と同じかそれ以上に大きくなっています。120 GBのテーブルでは、インデックスを再作成するのに約1日かかります。ただし、クエリのパフォーマンスは非常に優れています。

問題は、ターゲットデータベースの予測サイズが4TBを超えることです。これは、ターゲット全体の約10％に相当する400GBの小さなデータセットを使用したテストに基づいています。Postgresに読み込まれると、残念ながら、ストレージの50％以上がハッシュ列のSQLインデックスによって使用されています。

これは大きすぎます。そして、ハッシュの冗長性は、より少ないストレージの機会であると感じています。

これは問題を説明していますが、作成する必要のあるこれらのテーブルがいくつかあることにも注意してください。

database hash inverted-index bigdata

2011-03-15T14:36:22.053

0 投票する

3 に答える

3435 参照

amazon-web-services - Amazon S3 でファイルを 1 行ずつ読み取りますか?

Amazon S3 でファイルを 1 行ずつ読み取ることはできますか? 私は、人々が大きなファイルをどこかにアップロードしてから、いくつかのコード (おそらく Amazon で実行されている) にファイルを 1 行ずつ読み取らせ、おそらくマップを削減したマルチスレッド方式で何かを実行させたいと考えています。または、一度に 1000 行を読み込めるだけかもしれません... 何か提案はありますか?

amazon-web-services amazon-s3 amazon-ec2 bigdata

anon

2011-04-10T21:00:41.463

0 投票する

3 に答える

216 参照

database - 18歳以上のすべての人の名前を印刷しますか？

これは最近私に提起されたかなり良い質問でした。この惑星に住むすべての人々の名前、年齢、住所で構成される架空の（お気に入りのデータストレージツールをここに挿入）データベースがあるとします。あなたの仕事は、HTMLテーブル内に18歳以上のすべての人の名前を印刷することです。どうやってそれをやりますか？仮に人口が毎秒1200の速度で増加し、それに応じてデータベースが更新されたとしましょう（方法は聞かないでください）。これらすべての人の名前と住所をHTMLテーブルに出力するための戦略は何ですか？

database algorithm language-agnostic bigdata

2011-04-11T16:49:59.607

0 投票する

2 に答える

4815 参照

mysql - MATLAB での大きな CSV ファイルの操作

最大 2GB の大きな CSV ファイルを扱う必要があります。より具体的には、このすべてのデータを mySQL データベースにアップロードする必要がありますが、その前にいくつかの計算を行う必要があるため、このすべてを MATLAB で行う必要があります (また、上司は MATLAB でやりたいと思っています。 MATLAB :( )。

これらの大きなファイルをどのように処理できますか?

mysql matlab file-io csv bigdata

2011-04-18T12:28:42.397

0 投票する

3 に答える

454 参照

c++ - ミューテックスなしのモジュロベースの負荷分散?

私はこれについてすべて間違っているかもしれませんが、ここに私の問題と提案された解決策があります:

非常に迅速に処理する必要がある数億の独立したレコードを含む 50 ギガバイト以上のファイルがあります。私の現在のソリューションは、1 時間あたり 7,400 万レコードを取得しています。I/O スレッドにブロッキングキューを使用しています。各ワーカースレッドは、このキューからデータのチャンクを取得しようとします。

上記は、I/O スレッドとワーカースレッド間のミューテックスの競合により、かなり遅くなります。

ロックなしでこのスタイルのプロデューサー/コンシューマーを行う方法はありますか?

c++multithreading pthreads large-files bigdata

2011-05-04T14:49:53.200

問題タブ [bigdata]

Reference