database - NLP 処理はどの時点で行われるべきですか?

Question

完璧な世界では、大量のデータを要求したり受け取ったりするのに時間を費やすことなく、すぐに利用できるようになります。しかし、Google や Facebook などの実際のアプリケーションのコンテキストでは、クエリに時間がかかるデータベースに大量のデータが保存されており、意味のある結論/関係を引き出すためにそのデータを処理しようとしています。

SQLで大量のデータを数えてソートするコンテキストでは、データを要約テーブルに保存して処理を回避し、それらのテーブルをcronで更新するだけです。しかし、統計分析とnlpは違うようです。

問題は、データの寿命のどの時点で、実際に統計/nlp/その他の分析を行うべきかということです。

score 1 · Accepted Answer

通常これを行う方法は、データを収集し、ある種のデータベース（SQLまたはNoSQL）を用意してから、大量のデータがある場合は処理のためにそれをHadoopグリッドにダンプすることです。それ以外の場合は、通常行うことは何でもします。次に、そのデータを分析し、結果をフィードバックするジョブがあります。

データの取得->保存->ダンプ->分析->オフライン分析の結果を使用

実際のデータベースでのデータ処理はうまく機能しません。

score 0 · Accepted Answer

NLP と言うときに何を念頭に置いているかによって異なります。数十のつぶやき/ステータスの更新がどこかに保存された瞬間に、それらの読み取りと分析を開始できます. NLP の実行中に唯一の実稼働サーバーに繰り返しクエリを実行することは、おそらく良い考えではありません。そこにあるデータのダンプを取得して、そこから作業することをお勧めします。

database - NLP 処理はどの時点で行われるべきですか?

2 に答える 2

Related

Reference