PUBMED から廃棄されたデータから動的トピック モデリング (単語の意味変化をキャプチャする) を学習しようとしています。データを xml 形式で取得し、そこから「抽象」テキストと日付情報を抽出して、csv 形式で保存することができました。(ただし、これはデータの一部です。)
得られたフォーマット
年|月|日|抄録テキスト
モデルにgensim ldaを使用する予定です
これまでトピック モデリングを実際に行ったことはありませんでした。このプロセスを 1 段階ずつ進めるために、あなたの助けが必要です。
質問:
- csv は gensim lda にフィードするのに適した形式ですか?
- 動的モデリングの場合、データの時間的側面をどのように取得してモデルで使用する必要がありますか?
- csv ファイルよりもデータを整理する良い方法はありますか?
- これにはアブストラクトではなく本文を使用する必要がありますか?
これから多くのことを学びたいと思います。前もって感謝します。