問題タブ [pubmed]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 動的トピック モデリング用のセットアップ データ
PUBMED から廃棄されたデータから動的トピック モデリング (単語の意味変化をキャプチャする) を学習しようとしています。データを xml 形式で取得し、そこから「抽象」テキストと日付情報を抽出して、csv 形式で保存することができました。(ただし、これはデータの一部です。)
得られたフォーマット
年|月|日|抄録テキスト
モデルにgensim ldaを使用する予定です
これまでトピック モデリングを実際に行ったことはありませんでした。このプロセスを 1 段階ずつ進めるために、あなたの助けが必要です。
質問:
- csv は gensim lda にフィードするのに適した形式ですか?
- 動的モデリングの場合、データの時間的側面をどのように取得してモデルで使用する必要がありますか?
- csv ファイルよりもデータを整理する良い方法はありますか?
- これにはアブストラクトではなく本文を使用する必要がありますか?
これから多くのことを学びたいと思います。前もって感謝します。
python-2.7 - BioPython を使用して PubMed 出版物の日付を取得する方法
アブストラクトの PubMed ID を持っています10748870
。BioPython を使用して、アブストラクトが公開された日付を取得したいと思います。
たとえば、PubMed ID を持つ記事の発行日は に10748870
なりますDec 1999
。