0

完璧な世界では、大量のデータを要求したり受け取ったりするのに時間を費やすことなく、すぐに利用できるようになります。しかし、Google や Facebook などの実際のアプリケーションのコンテキストでは、クエリに時間がかかるデータベースに大量のデータが保存されており、意味のある結論/関係を引き出すためにそのデータを処理しようとしています。

SQLで大量のデータを数えてソートするコンテキストでは、データを要約テーブルに保存して処理を回避し、それらのテーブルをcronで更新するだけです。しかし、統計分析とnlpは違うようです。

問題は、データの寿命のどの時点で、実際に統計/nlp/その他の分析を行うべきかということです。

4

2 に答える 2

1

通常これを行う方法は、データを収集し、ある種のデータベース(SQLまたはNoSQL)を用意してから、大量のデータがある場合は処理のためにそれをHadoopグリッドにダンプすることです。それ以外の場合は、通常行うことは何でもします。次に、そのデータを分析し、結果をフィードバックするジョブがあります。

データの取得->保存->ダンプ->分析->オフライン分析の結果を使用

実際のデータベースでのデータ処理はうまく機能しません。

于 2012-04-04T18:15:33.037 に答える
0

NLP と言うときに何を念頭に置いているかによって異なります。数十のつぶやき/ステータスの更新がどこかに保存された瞬間に、それらの読み取りと分析を開始できます. NLP の実行中に唯一の実稼働サーバーに繰り返しクエリを実行することは、おそらく良い考えではありません。そこにあるデータのダンプを取得して、そこから作業することをお勧めします。

于 2012-04-04T16:50:37.910 に答える