1

いくつかの(Lat、Long)座標を含む大きなログファイルと、ポリゴンのコレクションを含むデータベースがあります。ポリゴンデータセットは現在メモリに収まりますが、将来は収まらない可能性があります。

ログ座標ごとに、どのポリゴンに含まれているのかを知るために、これら2つのデータセットを結合したいと思います。

Hadoop(または役立つ場合はPig)を使用したこの問題への適切なアプローチを知っていますか?

4

2 に答える 2

1

ここに到着する検索結果を利用するには、次の1つ以上が役立ちます。

Hadoop用のGISツール

SpatialHadoop

HadoopGIS

(開示:私はHadoop用のGISツールの開発者の1人であり、Esriに採用されています。)

于 2013-10-25T03:43:49.730 に答える
0

一見すると、私はこのようにすることを提案します:

MultipleInputs(データベースポリゴンとログファイルからの分割)を使用するマップがある。ログファイル分割の各ポイントについて、ポイントがポリゴンに属しているかどうかを確認し、属している場合はペア(point、polygon)を出力します。

レデューサーはこの情報を集約して出力します:(ポイント、それが属するポリゴンのセット)。

このソリューションは、ポリゴンの穴セットがメインメモリに収まるとは想定していません。

確かにそうだとすれば、ジョブを開始する前にデータベースにクエリを実行し、クエリの結果をファイルとしてDistributedCacheに配置する方が効率的だと思います。

于 2012-07-08T00:55:31.357 に答える