nltk を使用して科学論文を処理します。
まず、論文の原文をテキストファイルとして保存したいと思います。テキスト ファイルには、次のようないくつかのセクションがあります。
紙-1.txt:
Abstract
[abstract here]
Introduction
[introduction here]
Body
[body here]
コードでは、次のようなことをしたいと思います。
abstracts = nltk.SectionCorpusReader(root=..., section='abstract') # read abstracts only
full = nltk.SectionCorpusReader(root=..., section='full') # read whole documents
セクションを示すために使用するコーパス プロパティがわかりません。論文を複数のファイルに分割しようとしました: paper-1-abstract.txt、paper-1-intro.txt など。PlaintextCorpusReader を使用します。これはうまくいきません - 1 つの実際のドキュメントごとに複数の nltk ドキュメントを取得します。
任意の提案をいただければ幸いです。