プロジェクトに取り組んでいる間、PubMedアブストラクトのフルテキスト記事をダウンロードして処理する必要がありますが、ユーザーが一連のPubMed IDを入力し、同じものの無料フルテキスト記事をダウンロードできるようにする実装済みのコードまたはツールはありますか。どんな種類のヘルプやヒントも大歓迎です。
2 に答える
PubMedの性質上、一般的には不可能だと思います。あなたがやろうとしている最善のことは、PubMedCentralのオープンアクセスサブセットから記事を入手することです。PubMedCentralには、仕事をするためのオンラインユーティリティがたくさんあります。
StompChickenが指摘するユーティリティは、発行者がPMCに送信する前にXMLを検証するためのものであり、ダウンロード用のツールではありません。
PMCの記事の大部分はオープンアクセス(OA)ではないため、いかなる方法でも自動的に(合法的に)ダウンロードできないことに注意してください。NCBIは警告します:
- PMCの記事の大部分は、従来の著作権制限の対象であり、このサブセットの一部ではありません。詳細については、PMCの著作権表示をお読みください。
- PMCOAIサービスとPMCFTPサービスは、このオープンアクセスサブセットからの記事の自動ダウンロードに使用できる唯一のサービスです。
- このサブセットからのみ記事を取得している場合でも、他の自動化されたプロセスによる記事の体系的な取得(一括ダウンロード)は禁止されています。
- 一部のジャーナルは、出版時に無料で利用できる記事に「オープンアクセス」というラベルを使用していますが、それでも従来の著作権制限の対象となっています。このような記事は、このサブセットの一部ではありません。
PMCコンテンツをダウンロードするための最良の方法は、PMCオープンアクセスFTPサービスを使用することです:http ://www.ncbi.nlm.nih.gov/pmc/tools/ftp/
eutilsを使用してPMCにクエリを実行し、OAサブセットの全文と残りの要約をダウンロードすることもできます:http://eutils.ncbi.nlm.nih.gov/corehtml/query/static/efetchlit_help.html
別の代替手段は、OAIサービスを使用することです:http ://www.ncbi.nlm.nih.gov/pmc/tools/oai/
OAIサービスはひどく文書化されていますが、開始するためのいくつかのヒントはここにあります:http: //www.biostars.org/p/2076/#13338
PMCリポジトリを維持および更新する場合は、pubtoolsを試してください:http ://code.google.com/p/pubtools/