9

私の仕事では、生物医学の研究と業界で潜在的な顧客を見つけなければなりません。

NCBI を検索するための優れたインターフェイスを備えたモジュール biopython を使用して、いくつかの非常に便利なプログラムを作成しました。また、clinical_trials モジュールを使用して、clinicaltrials.gov を検索しました。

EPO や USPTO などの特許データベースを検索したいのですが、Python モジュールの痕跡を少しでも見つけることができませんでした。しかし、多分私は明らかな何かを見逃していますか?

Google には特許検索オプションがあるので、特許検索のみに適応できる Google 検索用の Python モジュールがあるのではないかと考えていました。

4

2 に答える 2

13

lxml python モジュールなどの任意の XML 解析ツールを使用して、少なくとも USPTO を解析できます。

これについては、Gabe Fierro による優れた論文があります。こちらから入手できます: USPTO XML からの特許データの抽出とフォーマット(ペイウォールなし)

Gabe は、この google group でこれを行うことに関する有益な議論にも参加しました。

最後に、探しているものがわかっていて、十分なディスク容量がある場合は、処理のためにローカルに保存されたバルク データを取得することもできます。USPTOの一括ダウンロードはこちらから

もっと具体的な質問があれば教えてください!私は以前にこの地面のいくつかを踏んだことがあります:)

また、Google 特許検索 API は非推奨ですが、URL タグを使用してメインの Google 検索 API から同じ検索を実行できるようになりました (手元にありませんが、Google 特許を介した検索で見つけることができます。 google.com による)。

更新: 自宅で、特許検索に Google カスタム検索 API を使用したいフラグは &tbm=pts です。Google カスタム検索エンジンと同じコードを取得することは、特許検索に非常に有益であることに注意してください。特許固有のフィールドを持つ優れたデータ構造。

コード例:

import requests
import urllib
import time
import json

access_token = <get yours by signing up for google custom search engine api>
cse_id = <get yours by signing up for google custom search engine api>

# Build url
start=1
search_text = "+(inassignee:\"Altera\" | \"Owner name: Altera\") site:www.google.com/patents/"
# &tbm=pts sets you on the patent search
url = 'https://www.googleapis.com/customsearch/v1?key='+access_token+'&cx='+cse_id+'&start='+str(start)+'&num=10&tbm=pts&q='+ urllib.quote(search_text)

response = requests.get(url)

response.json()
f = open('Sample_patent_data'+str(int(time.time()))+'.txt', 'w')
f.write(json.dumps(response.json(), indent=4))
f.close()

これにより、(無料の API アクセス情報を追加すると) アルテラが所有する特許の最初の 10 エントリが取得され (例として)、結果の JSON がテキスト ファイルに保存されます。お気に入りの Web JSON エディターを起動して、JSON ファイルを確認します。特に、['items'][] とサブの ['pagemap'] を調べることをお勧めします。この JSON を解析するだけで、タイトル、サムネイル、スニペット、タイトル、リンク、引用 (関連する場合) を取得できます。

于 2013-11-21T23:15:31.693 に答える