hadoop - Hadoop in action 特許事例解説

Question

Hadoop で実際に使用されている特許データの例を調べていました。使用されているデータセットについて詳しく説明していただけますか?

特許引用データセット
このデータセットには、引用特許と被引用特許の 2 つの列が含まれています。引用列は、特許を提出した所有者 ID を参照しますか? 被引用列は、2 番目のデータセットのキーとなる特許 ID を参照していますか?
特許明細書データセット
このデータセットにはいくつかのフィールドがあります。この 2 つのデータセットのマッピングを形成するには、2 番目のデータセットの最初の列 (特許) に対応するキーを持つ最初のデータセットの列を引用または引用しますか?

score 1 · Accepted Answer

まず、特許に関連するいくつかの用語を明確にしましょう。

引用とは？

引用とは、ある文書が別の文書に関連する内容を記載している場合に、相互にリンクされる文書です。

特許の詳細については、このリンクを参照してください:)

「特許引用データセット」 -- このデータセットは、特許の引用のみに言及しています。

特許Aが特許B、C、Dを使用していると言うようなものです

「引用」、「引用」</p>
3858241,956203

3858241,1324234

3858241,3398406

3858241,3557384

3858241,3634889

3858242,1515701

3858242,3319261

3858242,3668705

3858242,3707004

本からコピペしたので、ここで特許番号3858242は他に4件の特許を引用（使用/参照）、特許番号3858241は他に5件の特許を引用（使用/参照）

特許明細書データセット -- マスターテーブルに少し似ていますが、各特許のデータを保持するだけです。

うまくいけば、それでいくつかのことが解決します。

score 0 · Accepted Answer

HiA ブックの上位 K レコードの解決策に誤解があったと思いますが、セクション 4.7 には次のように書かれています。 MapReduce ジョブが、最大値だけでなく、上位 K 値を持つレコードを出力するようにします。」

使用する入力データセットは、実際には apat63_99.txt ファイルであり、この演習では、最大値だけでなく、上位の K 値 (CLAIMS) を持つレコードを要求します。リスト 4.6 で説明した AttributeMax.py は、最大クレームのレコードを提供していました。

hadoop - Hadoop in action 特許事例解説

2 に答える 2

Related

Reference