0

さまざまなソースからの製品データがあります。

商品に関する情報をまとめたい。

例えば、iPhone-5関連の情報をあらゆるソースから一箇所にまとめたい。

ここに問題があります。すべてのソースが同じようにデータを持っているわけではありません。たとえば、同じ製品でも名前が異なります。名前に色が付いているものもあれば、付いていないものもあります。

サンプルデータ :

Brand     |  Product Name                                   | Source | Information
Dell      |  Dell inspriron 15R 5050(Core i5/4gb/500/GB/Dos | Rev_Src| Very good product.
Dell      |  Dell inspriron 15R 5050, color: black/Blue     | Spc_Src| Ram | 4gb DDR3, Proce : 15 etc
Dell      | Dell inspriron 15r 5050 in  black color          | Stk_SRC| Available in India
DEll      | Window 7 with Dell inspiron 15r 5050 4gb ram    |usr_src | good performance

より多くの製品のデータがあるように、

出力、次のような情報が必要です。

Brand| Product                 | information
Dell | Dell inspiron 15 r 5050 | {Rev_Src : very good product, Rev_Src : Ram | 4 gb..., Stk_Src : available, Usr_Src : good performance}

問題 : 製品名はすべてのソースで同じ形式ではありません

解決策を探しています。map-reduce は役に立ちますか?

はいの場合、データストアまたは Hadoop を使用して Google App Engine (map reduce lib) を使用する必要があります。

注:私はGoogle App Engineベースのアプリケーションに取り組んでいます。

4

0 に答える 0