フラット ファイルには 200,000 を超える登録があり、NBCI から関連するエントリを取得する必要があります。
私は Batch Entrez ( http://www.ncbi.nlm.nih.gov/sites/batchentrez ) を使って仕事をしています。しかし、いくつかの問題が発生しました:
- 最初のファイルは複数のサブファイルに分割され、それぞれに 4000 行が含まれていました。しかし、Batch Entrez には返されるファイルのサイズに制限があるようです。たとえば、最初の 1000 のアクセッションすべてがサイズ制限に達する数万行を含む場合、残りの 3000 のアクセッションは拒否され、検索されません。
私の頭の中で考えられる解決策の 1 つは、ファイルを複数のサブファイルに分割し、個別に検索することです。ただし、これには手作業が多すぎます。
したがって、他の解決策があるかどうか、または任意のコードを使用できるかどうか疑問に思っています。
前もって感謝します