lxml python モジュールなどの任意の XML 解析ツールを使用して、少なくとも USPTO を解析できます。
これについては、Gabe Fierro による優れた論文があります。こちらから入手できます: USPTO XML からの特許データの抽出とフォーマット(ペイウォールなし)
Gabe は、この google group でこれを行うことに関する有益な議論にも参加しました。
最後に、探しているものがわかっていて、十分なディスク容量がある場合は、処理のためにローカルに保存されたバルク データを取得することもできます。USPTOの一括ダウンロードはこちらから。
もっと具体的な質問があれば教えてください!私は以前にこの地面のいくつかを踏んだことがあります:)
また、Google 特許検索 API は非推奨ですが、URL タグを使用してメインの Google 検索 API から同じ検索を実行できるようになりました (手元にありませんが、Google 特許を介した検索で見つけることができます。 google.com による)。
更新: 自宅で、特許検索に Google カスタム検索 API を使用したいフラグは &tbm=pts です。Google カスタム検索エンジンと同じコードを取得することは、特許検索に非常に有益であることに注意してください。特許固有のフィールドを持つ優れたデータ構造。
コード例:
import requests
import urllib
import time
import json
access_token = <get yours by signing up for google custom search engine api>
cse_id = <get yours by signing up for google custom search engine api>
# Build url
start=1
search_text = "+(inassignee:\"Altera\" | \"Owner name: Altera\") site:www.google.com/patents/"
# &tbm=pts sets you on the patent search
url = 'https://www.googleapis.com/customsearch/v1?key='+access_token+'&cx='+cse_id+'&start='+str(start)+'&num=10&tbm=pts&q='+ urllib.quote(search_text)
response = requests.get(url)
response.json()
f = open('Sample_patent_data'+str(int(time.time()))+'.txt', 'w')
f.write(json.dumps(response.json(), indent=4))
f.close()
これにより、(無料の API アクセス情報を追加すると) アルテラが所有する特許の最初の 10 エントリが取得され (例として)、結果の JSON がテキスト ファイルに保存されます。お気に入りの Web JSON エディターを起動して、JSON ファイルを確認します。特に、['items'][] とサブの ['pagemap'] を調べることをお勧めします。この JSON を解析するだけで、タイトル、サムネイル、スニペット、タイトル、リンク、引用 (関連する場合) を取得できます。