“bigdata”の関連問題_Stack Overflow日本語サイト

0 投票する

3 に答える

82 参照

python - Pythonリストの別の変数に基づいて変数のエントリを合計する（一意にする）

Pythonでこのタスクを実行する方法について質問があります:-

私は次のようなエントリの配列を持っています: [IPAddress, connections, policystatus, activity flag, longitude, latitude] (すべて文字列として)

元。

... 経度と緯度の組み合わせが約 4000 ある約 110000 エントリまで

各ロケーションの平均接続数、平均ポリシーステータス、平均アクティビティフラグをカウントしたい

このようなもの：

... すぐ

そして、それぞれ約110,000エントリのファイルが約195個あります（ビッグデータの問題のようなものです）ファイルは.csvにありますが、それを.txtとして使用してPythonで簡単に操作できます（これが最良のアイデアかどうかはわかりません）

私はまだPythonに慣れていないので、使用する最善のアプローチが何であるかはよくわかりませんが、この問題に関するヘルプやガイダンスを心から感謝しています

前もって感謝します！

2012-04-21T11:46:25.047

0 投票する

1 に答える

557 参照

database - どの NoSql ソリューションを選択すればよいですか?

数十のサーバーにシステムを分散させています。1秒あたり約10000回の読み取りと書き込みを実行することになっています。レコードサイズは数KB程度です。データの整合性はあまり重要ではありません。どの NoSql ソリューションを選択すればよいですか?

ありがとう！ダニエル

database nosql bigdata

2012-04-24T13:49:52.000

0 投票する

2 に答える

398 参照

performance - R でのデータの高速境界

vec長い (1E8 エントリから始まる)ベクトルがあり、それを範囲にバインドしたいとします[a,b]。確かにvec[vec < a] = aとをコーディングできますvec[vec > b] = bが、これには、データに対する 2 つのパスと、一時的な指標ベクトル (~800MB、2 回) のための大きな RAM 割り当てが必要です。メインメモリからローカルキャッシュにデータを 1 回だけコピーすれば、より適切に実行できるため、2 つのパスの燃焼時間は短縮されます (メインメモリへの呼び出しは、キャッシュミスと同様に良くありません)。そして、これが複数のスレッドでどれだけ改善できるかは誰にもわかりませんが、貪欲にならないようにしましょう。:)

ベースRまたは見落としているパッケージに優れた実装がありますか、それともこれはRcpp（または私の旧友data.table）の仕事ですか？

performance r data.table bigdata rcpp

2012-05-06T20:40:22.943

0 投票する

1 に答える

86 参照

mongodb - mongo の MR は結果を別のシャードコレクションに書き込むことができますか?

Mongo MR のドキュメント ( http://www.mongodb.org/display/DOCS/MapReduce#MapReduce-ShardedEnvironments ) によると、シャードデータに対する MR ジョブの出力は、結果を別のシャードコレクションに書き込むことができますが、_ID のみシャードキーとして使用できます。

結果のドキュメントに割り当てられる_IDを発行または設定する方法はありますか? それ自体がシャードキーとして使用される UserID または CustomerNo を使用するとします。

mongodb mapreduce bigdata nosql

2012-05-07T21:07:06.097

0 投票する

2 に答える

1141 参照

javascript - ダッシュボードとアラームを作成するためのフレームワーク

私は会社でビッグデータプロジェクトの執筆に取り組んでいます。大量のデータ (クリックストリームのようなデータ) を収集するソフトウェアを作成しています。現在、このデータを HBase に保存しています。その上にアナリティクスを構築する予定です。私たちは、OBIEE と、集約された HBase データを Oracle インスタンスにロードし、OBIEE を Oracle データの前に配置できるソリューションを検討しました。これは実行可能な解決策かもしれませんが、多くの依存関係があり、Oracle の能力によって制限されます (データは非常に巨大です)。

主にリッチ UI (通常のレポートダッシュボード、カスタムダッシュボード) とビジネスアラームを作成する機能を備えた独自の分析ポータルを作成する場合、それを簡単に実行できるフレームワークはありますか?

どんな助けでも大歓迎です。

ありがとう

javascript analytics dashboard bigdata

2012-05-11T00:46:07.167

0 投票する

5 に答える

14757 参照

node.js - node.js httpサーバーを使用してmongodbから大量の行を返す方法は?

JSON の REST インターフェイス経由でエクスポートしたい mongodb にユーザーデータベースがあります。問題は、最悪のシナリオでは、返される行の量が 200 万をはるかに超えることです。

最初にこれを試しました

メモリが不足すると失敗します。この例では、node-mongodb-native ドライバーと基本的な http パッケージを使用しています。

致命的なエラー: CALL_AND_RETRY_2 割り当てに失敗しました - プロセスがメモリ不足です

(実際のシナリオでは、必要に応じて結果を制限するパラメーターを使用しますが、この例ではそれらすべてをクエリしますが、これは最悪のシナリオです)

データ自体は単純です。

{ "_id" : ObjectId("4f993d1c5656d3320851aadb"), "userid" : "80ec39f7-37e2-4b13-b442-6bea57472537", "user-agent" : "Mozilla/4.0 (互換性あり; MSIE 8.0; Windows NT 5.1; Trident/ 4.0; .NET CLR 1.1.4322)"、"ip": "127.0.0.1"、"lastupdate": 1335442716 }

私も次のようなことを試しました

しかし、それもメモリを使い果たしました。

どのように進めればよいですか？行ごとにデータをストリーミングする方法があるはずですが、適切な例を見つけることができませんでした。外部アプリケーションの要件があるため、データのページングは問題外です。データをファイルに書き込んでから投稿することを考えましたが、それは不要な io につながります。

node.js mongodb rest http bigdata

2012-05-11T06:02:14.797

0 投票する

3 に答える

2061 参照

java - ファネル分析の計算、ファネルをどのように計算しますか？

ユーザーがウェブサイトで取る「イベント」を追跡するとします。イベントは次のようになります。

閲覧したホームページ
カートにアイテムを追加しました
チェックアウト
注文の支払い

これで、これらの各イベントは次のようなデータベースに保存されます。

session_idevent_namecreated_date.。

そこで、次のように定義する特定の目標到達プロセスを表示するレポートを作成します。

したがって、この特定の目標到達プロセスには3つのステップがあり、各ステップは任意のイベントに関連付けられています。

上記のデータを使用して、このレポートを作成するにはどうすればよいですか？

注：明確にしておきたいのは、自分で定義したファネルを作成し、そのレポートを作成できるようにすることです。

私が考えることができる最も基本的な方法は次のとおりです。

データベースにある各ステップのすべてのイベントを取得します
ステップ＃1は、x％の人がevent_nを実行します
次に、ステップ＃1も実行したステップ＃2のデータをクエリし、％を表示する必要があります。
＃3と同じですが、ステップ＃2の条件でステップ＃3の場合

これらのオンラインサービスが、ホストされたSaas環境でこれらのタイプのレポートをどのように表示できるのか興味があります。map-reduceはこれをどういうわけか簡単にしますか？

java math hadoop mapreduce bigdata

2012-05-12T19:20:23.270

0 投票する

1 に答える

1766 参照

python - ビッグ衛星画像処理

私は Mort Canty のhttp://mcanty.homepage.t-online.de/バイテンポラル RapidEye マルチスペクトル画像で Python iMAD 実装を実行しようとしています。これは基本的に、2 つの画像の正準相関を計算してから、それらを減算します。私が抱えている問題は、画像が 5000 x 5000 x 5 (バンド) ピクセルであることです。イメージ全体でこれを実行しようとすると、メモリエラーが発生します。

pyTables のようなものを使用すると、これに役立ちますか?

Mort Canty のコードは、gdal を使用して画像をロードし、10 x 25,000,000 配列に格納しようとしています。

float の 10 x 25,000,000 numpy 配列を作成するだけでも、メモリエラーがスローされます。これを回避する方法を知っている人はいますか？初めての投稿なので、投稿の仕方などアドバイスいただければ幸いです。

ご挨拶

python satellite-image large-data bigdata

2012-05-14T06:34:41.367

0 投票する

2 に答える

2308 参照

performance - UNIXでファイルを分割する

UNIXの「分割」以外にファイルをN個のチャンクに分割するより速い方法があるかどうか疑問に思っています。

基本的に、私は大きなファイルを持っており、それらを小さなチャンクに分割して、それぞれを並行して操作したいと思います。

performance unix split bigdata

2012-05-16T23:01:06.050

0 投票する

1 に答える

108 参照

python - SQLServer から BigData へのデータの移植

現在のホスティングサイトに大規模な SQLServer データベースがあります...そして

Google BigData にインポートしたいと思います。

これには方法がありますか？

python sql-server bigdata

2012-05-22T15:52:12.513

問題タブ [bigdata]

Reference