mapreduce - Amazon mapreduce を使用してフリーベースクワッドダンプを解析する方法

Question

フリーベースから映画情報を抽出しようとしています。映画の名前、監督と俳優の名前と ID だけが必要です。

ディレクター ID への参照がなく、ディレクター名だけであるため、freebases トピックダンプを使用してこれを行うのは難しいことがわかりました。

このタスクの正しいアプローチは何ですか? Amazonsクラウドを使用してクワッドダンプ全体を解析する必要がありますか? それとも、いくつかのesy方法がありますか？

score 2 · Accepted Answer

まず、Tom の視点と提案に完全に同意します。私はよく UNIX コマンドラインツールを使用して、Freebase データダンプから「興味深い」データスライスを取り出します。

ただし、別の方法として、Freebase データをローカルの「グラフ」ストレージシステムにロードし、そのシステムから利用可能な API やクエリ言語を使用して、データとやり取りしてさらに処理することもできます。

私は RDF を使用しています。これは、データモデルが非常に似ており、Freebase データダンプを RDF に変換するのが非常に簡単であるためです ( https://github.com/castagna/freebase2rdfを参照)。次に、それを Apache Jena の TDB ストア (http://incubator.apache.org/jena/documentation/tdb/) にロードし、Jena API または SPARQL を使用してさらに処理します。

もう 1 つの合理的でスケーラブルなアプローチは、必要なことを MapReduce で実装することです。ただし、これは、実行する処理量が Freebase データの大部分に影響し、行数を数えるほど簡単ではない場合にのみ意味があります。これは、独自のマシンを使用するよりも費用がかかります。Hadoop クラスターが必要になるか、Amazon EMR を使用する必要があります。(おそらく、freebase2rdf の MapReduce バージョンを作成する必要があります ;-))

私の2セント。

mapreduce - Amazon mapreduce を使用してフリーベース クワッド ダンプを解析する方法

2 に答える 2

Related

Reference

mapreduce - Amazon mapreduce を使用してフリーベースクワッドダンプを解析する方法