1

nltk を使用して科学論文を処理します。

まず、論文の原文をテキストファイルとして保存したいと思います。テキスト ファイルには、次のようないくつかのセクションがあります。

紙-1.txt:

Abstract
[abstract here] 

Introduction
[introduction here]

Body
[body here]

コードでは、次のようなことをしたいと思います。

abstracts = nltk.SectionCorpusReader(root=..., section='abstract') # read abstracts only
full = nltk.SectionCorpusReader(root=..., section='full')          # read whole documents

セクションを示すために使用するコーパス プロパティがわかりません。論文を複数のファイルに分割しようとしました: paper-1-abstract.txt、paper-1-intro.txt など。PlaintextCorpusReader を使用します。これはうまくいきません - 1 つの実際のドキュメントごとに複数の nltk ドキュメントを取得します。

任意の提案をいただければ幸いです。

4

0 に答える 0