公開された記事の要約をすべて簡単にダウンロードする方法を知っている人はいますか? 私はテキストマイニングプロジェクトに取り組んでいます。
私が見つけることができる最も近いものは、pmid を指定して一度に 1 つの要約をダウンロードできますが、一度に 1 つずつダウンロードする必要があるため、私の目的には遅すぎます。
公開された記事の要約をすべて簡単にダウンロードする方法を知っている人はいますか? 私はテキストマイニングプロジェクトに取り組んでいます。
私が見つけることができる最も近いものは、pmid を指定して一度に 1 つの要約をダウンロードできますが、一度に 1 つずつダウンロードする必要があるため、私の目的には遅すぎます。
FTP 経由で直接 NLM からすべてのデータを取得できます。
https://www.nlm.nih.gov/databases/download/terms_and_conditions_pubmed.html
e-utils を気にせずにダウンロードして作業してください。
を検索すると"0000/01/01"[PDAT] : "3000/12/31"[PDAT]
、最初からすべての記事が表示されます。
おそらく、検索結果のすぐ上に表示される「送信先」機能を使用すると、すべてをダウンロードできます。
または、スクリプトを作成し、NCBI から Entrez プログラミング ユーティリティを使用することもできます。
ESearch を使用して検索クエリを実行すると、すべての PMID が返されます。次に、EFetch を使用してすべてのデータを返すことができます。この本/マニュアルで説明されています: http://www.ncbi.nlm.nih.gov/books/NBK25501/
第 3 章には、開始するためのいくつかのサンプル スクリプトが含まれています 。
抄録とその他すべてのデータを含む xml ファイルを取得します。
2,500 万の XML ファイル...
Europe PMC が提供する RESTful APIを使用します。クエリごとに 25 個の記事を json または xml 形式でダウンロードできます。マラリアに関する記事のクエリの例は次のようになります。
さまざまな形式の検索クエリを使用できますが、実際に何を取得したいかによって異なります。
これが少し古くなったことは承知していますが、まったく同じユースケース(大規模なマイニングプロジェクト)のプロセスがあります。
データは、無料のライセンス契約を通じて取得できます。詳細については、こちらを参照してください。