0

NLTKで自分のコーパスを作成しようとしています。私はこれに関するいくつかのドキュメントを読んでいて、それはかなり複雑に思えます...私がやりたかったのは、映画レビューコーパスを「クローン」することですが、私自身のテキストを使用します。これで、移動レビューコーパス内のファイルを自分のものに変更できることがわかりました...しかし、それでは、一度に1つのそのようなコーパスで作業することに制限されます(つまり、ファイルを継続的に交換する必要があります)。映画レビューコーパスのクローンを作成する方法はありますか?

ありがとうアレックス

4

2 に答える 2

1

映画のレビューはCategorizedPlaintextCorpusReaderクラスで読みます。それを直接使用して、コーパスをロードします。以下は、映画コーパスの正確なコピーに対して機能するはずです。

mr = CategorizedPlaintextCorpusReader(path_to_your_reviews, r'(?!\.).*\.txt',
        cat_pattern=r'(neg|pos)/.*')

内部で一致するものcat_patternはすべてカテゴリです。この場合、negpos. コーパスにさまざまなカテゴリ (たとえば、肯定/否定評価ではなく映画のジャンル) がある場合は、ディレクトリ構造を変更し、cat_pattern一致するようにパラメーターを調整します。

PS。異なる構造を持つ分類されたコーパスの場合、nltk は分類を指定する豊富な方法を提供します。のドキュメントを読んでくださいCategorizedPlaintextCorpusReader

于 2012-06-04T12:59:18.117 に答える
0

movie_reviewsinの定義をコピーして新しいコーパスを定義してみませんnltk.corpusか? 新しいディレクトリでこれをすべて実行してから、ディレクトリ構造をコピーしてファイルを置き換えることができます。

于 2012-06-04T02:45:18.057 に答える