python - コーパスに NLTK セクションを追加

翻译自：https://stackoverflow.com/questions/17033554 2013-06-10T22:00:47.960

141 次

nltk を使用して科学論文を処理します。

まず、論文の原文をテキストファイルとして保存したいと思います。テキストファイルには、次のようないくつかのセクションがあります。

紙-1.txt:

Abstract
[abstract here] 

Introduction
[introduction here]

Body
[body here]

コードでは、次のようなことをしたいと思います。

abstracts = nltk.SectionCorpusReader(root=..., section='abstract') # read abstracts only
full = nltk.SectionCorpusReader(root=..., section='full')          # read whole documents

セクションを示すために使用するコーパスプロパティがわかりません。論文を複数のファイルに分割しようとしました: paper-1-abstract.txt、paper-1-intro.txt など。PlaintextCorpusReader を使用します。これはうまくいきません - 1 つの実際のドキュメントごとに複数の nltk ドキュメントを取得します。

任意の提案をいただければ幸いです。

python - コーパスに NLTK セクションを追加

0 に答える 0

Related

Reference