2

Hadoop で実際に使用されている特許データの例を調べていました。使用されているデータセットについて詳しく説明していただけますか?

  1. 特許引用データ セット
    このデータ セットには、引用特許と被引用特許の 2 つの列が含まれています。引用列は、特許を提出した所有者 ID を参照しますか? 被引用列は、2 番目のデータ セットのキーとなる特許 ID を参照していますか?

  2. 特許明細書データセット
    このデータセットにはいくつかのフィールドがあります。この 2 つのデータセットのマッピングを形成するには、2 番目のデータセットの最初の列 (特許) に対応するキーを持つ最初のデータ セットの列を引用または引用しますか?

4

2 に答える 2

1

まず、特許に関連するいくつかの用語を明確にしましょう。

引用とは?

引用とは、ある文書が別の文書に関連する内容を記載している場合に、相互にリンクされる文書です。

特許の詳細については、このリンクを参照してください:)

「特許引用データセット」 -- このデータセットは、特許の引用のみに言及しています。

特許Aが特許B、C、Dを使用していると言うようなものです

「引用」、「引用」</p>

3858241,956203

3858241,1324234

3858241,3398406

3858241,3557384

3858241,3634889

3858242,1515701

3858242,3319261

3858242,3668705

3858242,3707004

本からコピペしたので、ここで特許番号3858242は他に4件の特許を引用(使用/参照)、特許番号3858241は他に5件の特許を引用(使用/参照)

特許明細書データ セット -- マスター テーブルに少し似ていますが、各特許のデータを保持するだけです。

うまくいけば、それでいくつかのことが解決します。

于 2014-04-18T14:53:02.270 に答える
0

HiA ブックの上位 K レコードの解決策に誤解があったと思いますが、セクション 4.7 には次のように書かれています。 MapReduce ジョブが、最大値だけでなく、上位 K 値を持つレコードを出力するようにします。」

使用する入力データ セットは、実際には apat63_99.txt ファイルであり、この演習では、最大値だけでなく、上位の K 値 (CLAIMS) を持つレコードを要求します。リスト 4.6 で説明した AttributeMax.py は、最大クレームのレコードを提供していました。

于 2014-05-13T03:02:51.827 に答える