私の小さなプロジェクトについて、そして私が順調に進んでいるかどうかについて言及したいと思います。Medline(http://www.nlm.nih.gov/bsd/licensee/2011_stats/baseline_doc.html)のすべての記事を処理する必要があります。Medlineデータベースに精通していない人のために、私は少し情報を追加します:
- 約あります。20.000.000のレコード(83.4 GBのディスク容量)。それぞれに多くのフィールドとサブフィールドがあります。
- このDB(ライセンス付き)をXML形式でダウンロードできます。
- これらの20Mのレコードは、653個のファイルで配布されます。
- すべてのファイルには1つのMedlineCitationSetがあり、これは一連のレコード(MedlineCitation)です。
これらのレコードを処理して、タイトル、要約などの情報を取得したいと思います。次に、これらのファイル(またはレコード)にpythonとmongodbでインデックスを付けることを考えました。そして私には1つの選択肢があります:
medlineパーサーを作成し、レコードごとにmongoDBのJSONエントリを作成し、pubmedIDでインデックスを作成しました。次に、get_abstract('pubmedID'):stringのような関数を作成できます。
私の質問は次のとおりです。
- それは良い考えですか?(XML解析-> JSON->挿入とインデックス作成!)
- GridFSを使用して、各ファイルのレコードに相当するチャンクを取得できますか?どのように?
- 他の方法を知っていますか?