フリーベースから映画情報を抽出しようとしています。映画の名前、監督と俳優の名前と ID だけが必要です。
ディレクター ID への参照がなく、ディレクター名だけであるため、freebases トピック ダンプを使用してこれを行うのは難しいことがわかりました。
このタスクの正しいアプローチは何ですか? Amazonsクラウドを使用してクワッドダンプ全体を解析する必要がありますか? それとも、いくつかのesy方法がありますか?
フリーベースから映画情報を抽出しようとしています。映画の名前、監督と俳優の名前と ID だけが必要です。
ディレクター ID への参照がなく、ディレクター名だけであるため、freebases トピック ダンプを使用してこれを行うのは難しいことがわかりました。
このタスクの正しいアプローチは何ですか? Amazonsクラウドを使用してクワッドダンプ全体を解析する必要がありますか? それとも、いくつかのesy方法がありますか?
まず、Tom の視点と提案に完全に同意します。私はよく UNIX コマンド ライン ツールを使用して、Freebase データ ダンプから「興味深い」データ スライスを取り出します。
ただし、別の方法として、Freebase データをローカルの「グラフ」ストレージ システムにロードし、そのシステムから利用可能な API やクエリ言語を使用して、データとやり取りしてさらに処理することもできます。
私は RDF を使用しています。これは、データ モデルが非常に似ており、Freebase データ ダンプを RDF に変換するのが非常に簡単であるためです ( https://github.com/castagna/freebase2rdfを参照)。次に、それを Apache Jena の TDB ストア (http://incubator.apache.org/jena/documentation/tdb/) にロードし、Jena API または SPARQL を使用してさらに処理します。
もう 1 つの合理的でスケーラブルなアプローチは、必要なことを MapReduce で実装することです。ただし、これは、実行する処理量が Freebase データの大部分に影響し、行数を数えるほど簡単ではない場合にのみ意味があります。これは、独自のマシンを使用するよりも費用がかかります。Hadoop クラスターが必要になるか、Amazon EMR を使用する必要があります。(おそらく、freebase2rdf の MapReduce バージョンを作成する必要があります ;-))
私の2セント。