さまざまなソースからの製品データがあります。
商品に関する情報をまとめたい。
例えば、iPhone-5関連の情報をあらゆるソースから一箇所にまとめたい。
ここに問題があります。すべてのソースが同じようにデータを持っているわけではありません。たとえば、同じ製品でも名前が異なります。名前に色が付いているものもあれば、付いていないものもあります。
サンプルデータ :
Brand | Product Name | Source | Information
Dell | Dell inspriron 15R 5050(Core i5/4gb/500/GB/Dos | Rev_Src| Very good product.
Dell | Dell inspriron 15R 5050, color: black/Blue | Spc_Src| Ram | 4gb DDR3, Proce : 15 etc
Dell | Dell inspriron 15r 5050 in black color | Stk_SRC| Available in India
DEll | Window 7 with Dell inspiron 15r 5050 4gb ram |usr_src | good performance
より多くの製品のデータがあるように、
出力、次のような情報が必要です。
Brand| Product | information
Dell | Dell inspiron 15 r 5050 | {Rev_Src : very good product, Rev_Src : Ram | 4 gb..., Stk_Src : available, Usr_Src : good performance}
問題 : 製品名はすべてのソースで同じ形式ではありません
解決策を探しています。map-reduce は役に立ちますか?
はいの場合、データストアまたは Hadoop を使用して Google App Engine (map reduce lib) を使用する必要があります。
注:私はGoogle App Engineベースのアプリケーションに取り組んでいます。