基本的にwikipedia pagecount-statisticを入力として受け取り、次のようなリストを作成 するHadoop-Jobを構築したい
en-Articlename: en:count de:count fr:count
そのためには、各言語に関連するさまざまな記事名が必要です。つまり、Brugge(en, fr)、Brügge(de) で、MediaWikiApi が記事ごとに照会します (http://en.wikipedia.org/w/api.php?action=query&titles =Bruges&prop=langlinks&lllimit=500)。
私の質問は、この問題を解決するための正しいアプローチを見つけることです。
私のスケッチしたアプローチは次のようになります。
- pagecount ファイルを 1 行ずつ処理します (line-example 'de Brugge 2 48824')。
- MediaApi にクエリを実行し、sth を書き込みます。like'en-Articlename: process-language-key:count'
- すべての en-Articlename-values を 1 行に集約します (おそらく 2 番目のジョブで?)
今では、すべての行に対して MediaAPI を照会するのはかなり不便に思えますが、現在、より良い解決策について頭を悩ませることはできません。
の現在のアプローチは実現可能だと思いますか、それとも別のアプローチを考えられますか?
補足: 作成されたジョブ チェーンは、私の (小さな) Hadoop-Cluster で時間を測定するために使用されるため、タスクを変更しても問題ありません。
編集: これは、私が今見つけた非常によく似た議論です..