問題タブ [bigdata]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Pythonリストの別の変数に基づいて変数のエントリを合計する(一意にする)
Pythonでこのタスクを実行する方法について質問があります:-
私は次のようなエントリの配列を持っています: [IPAddress, connections, policystatus, activity flag, longitude, latitude] (すべて文字列として)
元。
... 経度と緯度の組み合わせが約 4000 ある約 110000 エントリまで
各ロケーションの平均接続数、平均ポリシー ステータス、平均アクティビティ フラグをカウントしたい
このようなもの:
... すぐ
そして、それぞれ約110,000エントリのファイルが約195個あります(ビッグデータの問題のようなものです)ファイルは.csvにありますが、それを.txtとして使用してPythonで簡単に操作できます(これが最良のアイデアかどうかはわかりません)
私はまだPythonに慣れていないので、使用する最善のアプローチが何であるかはよくわかりませんが、この問題に関するヘルプやガイダンスを心から感謝しています
前もって感謝します!
database - どの NoSql ソリューションを選択すればよいですか?
数十のサーバーにシステムを分散させています。1秒あたり約10000回の読み取りと書き込みを実行することになっています。レコードサイズは数KB程度です。データの整合性はあまり重要ではありません。どの NoSql ソリューションを選択すればよいですか?
ありがとう!ダニエル
performance - R でのデータの高速境界
vec
長い (1E8 エントリから始まる)ベクトル があり、それを範囲 にバインドしたいとします[a,b]
。確かにvec[vec < a] = a
とをコーディングできますvec[vec > b] = b
が、これには、データに対する 2 つのパスと、一時的な指標ベクトル (~800MB、2 回) のための大きな RAM 割り当てが必要です。メイン メモリからローカル キャッシュにデータを 1 回だけコピーすれば、より適切に実行できるため、2 つのパスの燃焼時間は短縮されます (メイン メモリへの呼び出しは、キャッシュ ミスと同様に良くありません)。そして、これが複数のスレッドでどれだけ改善できるかは誰にもわかりませんが、貪欲にならないようにしましょう。:)
ベースRまたは見落としているパッケージに優れた実装がありますか、それともこれはRcpp(または私の旧友data.table
)の仕事ですか?
mongodb - mongo の MR は結果を別のシャード コレクションに書き込むことができますか?
Mongo MR のドキュメント ( http://www.mongodb.org/display/DOCS/MapReduce#MapReduce-ShardedEnvironments ) によると、シャード データに対する MR ジョブの出力は、結果を別のシャード コレクションに書き込むことができますが、_ID のみシャードキーとして使用できます。
結果のドキュメントに割り当てられる_IDを発行または設定する方法はありますか? それ自体がシャード キーとして使用される UserID または CustomerNo を使用するとします。
javascript - ダッシュボードとアラームを作成するためのフレームワーク
私は会社でビッグデータ プロジェクトの執筆に取り組んでいます。大量のデータ (クリックストリームのようなデータ) を収集するソフトウェアを作成しています。現在、このデータを HBase に保存しています。その上にアナリティクスを構築する予定です。私たちは、OBIEE と、集約された HBase データを Oracle インスタンスにロードし、OBIEE を Oracle データの前に配置できるソリューションを検討しました。これは実行可能な解決策かもしれませんが、多くの依存関係があり、Oracle の能力によって制限されます (データは非常に巨大です)。
主にリッチ UI (通常のレポート ダッシュボード、カスタム ダッシュボード) とビジネス アラームを作成する機能を備えた独自の分析ポータルを作成する場合、それを簡単に実行できるフレームワークはありますか?
どんな助けでも大歓迎です。
ありがとう
node.js - node.js httpサーバーを使用してmongodbから大量の行を返す方法は?
JSON の REST インターフェイス経由でエクスポートしたい mongodb にユーザー データベースがあります。問題は、最悪のシナリオでは、返される行の量が 200 万をはるかに超えることです。
最初にこれを試しました
メモリが不足すると失敗します。この例では、node-mongodb-native ドライバーと基本的な http パッケージを使用しています。
致命的なエラー: CALL_AND_RETRY_2 割り当てに失敗しました - プロセスがメモリ不足です
(実際のシナリオでは、必要に応じて結果を制限するパラメーターを使用しますが、この例ではそれらすべてをクエリしますが、これは最悪のシナリオです)
データ自体は単純です。
{ "_id" : ObjectId("4f993d1c5656d3320851aadb"), "userid" : "80ec39f7-37e2-4b13-b442-6bea57472537", "user-agent" : "Mozilla/4.0 (互換性あり; MSIE 8.0; Windows NT 5.1; Trident/ 4.0; .NET CLR 1.1.4322)"、"ip": "127.0.0.1"、"lastupdate": 1335442716 }
私も次のようなことを試しました
しかし、それもメモリを使い果たしました。
どのように進めればよいですか?行ごとにデータをストリーミングする方法があるはずですが、適切な例を見つけることができませんでした。外部アプリケーションの要件があるため、データのページングは問題外です。データをファイルに書き込んでから投稿することを考えましたが、それは不要な io につながります。
java - ファネル分析の計算、ファネルをどのように計算しますか?
ユーザーがウェブサイトで取る「イベント」を追跡するとします。イベントは次のようになります。
- 閲覧したホームページ
- カートにアイテムを追加しました
- チェックアウト
- 注文の支払い
これで、これらの各イベントは次のようなデータベースに保存されます。
session_idevent_namecreated_date.。
そこで、次のように定義する特定の目標到達プロセスを表示するレポートを作成します。
したがって、この特定の目標到達プロセスには3つのステップがあり、各ステップは任意のイベントに関連付けられています。
上記のデータを使用して、このレポートを作成するにはどうすればよいですか?
注:明確にしておきたいのは、自分で定義したファネルを作成し、そのレポートを作成できるようにすることです。
私が考えることができる最も基本的な方法は次のとおりです。
- データベースにある各ステップのすべてのイベントを取得します
- ステップ#1は、x%の人がevent_nを実行します
- 次に、ステップ#1も実行したステップ#2のデータをクエリし、%を表示する必要があります。
- #3と同じですが、ステップ#2の条件でステップ#3の場合
これらのオンラインサービスが、ホストされたSaas環境でこれらのタイプのレポートをどのように表示できるのか興味があります。map-reduceはこれをどういうわけか簡単にしますか?
python - ビッグ衛星画像処理
私は Mort Canty のhttp://mcanty.homepage.t-online.de/バイテンポラル RapidEye マルチスペクトル画像で Python iMAD 実装を実行しようとしています。これは基本的に、2 つの画像の正準相関を計算してから、それらを減算します。私が抱えている問題は、画像が 5000 x 5000 x 5 (バンド) ピクセルであることです。イメージ全体でこれを実行しようとすると、メモリ エラーが発生します。
pyTables のようなものを使用すると、これに役立ちますか?
Mort Canty のコードは、gdal を使用して画像をロードし、10 x 25,000,000 配列に格納しようとしています。
float の 10 x 25,000,000 numpy 配列を作成するだけでも、メモリ エラーがスローされます。これを回避する方法を知っている人はいますか?初めての投稿なので、投稿の仕方などアドバイスいただければ幸いです。
ご挨拶
performance - UNIXでファイルを分割する
UNIXの「分割」以外にファイルをN個のチャンクに分割するより速い方法があるかどうか疑問に思っています。
基本的に、私は大きなファイルを持っており、それらを小さなチャンクに分割して、それぞれを並行して操作したいと思います。
python - SQLServer から BigData へのデータの移植
現在のホスティング サイトに大規模な SQLServer データベースがあります...そして
Google BigData にインポートしたいと思います。
これには方法がありますか?