6

以下を使用して、すべての nltk データをダウンロードできます。

> import nltk
> nltk.download('all')

または、以下を使用した特定のデータ:

> nltk.download('punkt')
> nltk.download('maxent_treebank_pos_tagger')

しかし、「コーパラ」ファイル以外のすべてのデータをダウンロードしたいのですが、たとえば、すべてのチャンカー、グラマー、モデル、ステマー、タガー、トークナイザーなどです。

ダウンローダ UI なしでこれを行う方法はありますか? 何かのようなもの、

> nltk.download('all-taggers')
4

1 に答える 1

2

すべてのコーパス ID とセットを一覧表示します_status_cache[pkg.id] = 'installed'

すべてのコーパスのステータス値が「インストール済み」に設定され、使用時にコーパス パッケージがスキップされますnltk.download()

どのコーパス/パッケージが必要かわからない場合は、すべてのコーパスとモデルをダウンロードする代わりに、nltk.download('popular').

import nltk

dwlr = nltk.downloader.Downloader()

for pkg in dwlr.corpora():
    dwlr._status_cache[pkg.id] = 'installed'

dwlr.download('popular')

特定のフォルダーのすべてのパッケージをダウンロードするには。

import nltk

dwlr = nltk.downloader.Downloader()

# chunkers, corpora, grammars, help, misc, 
# models, sentiment, stemmers, taggers, tokenizers
for pkg in dwlr.packages():
    if pkg.subdir== 'taggers':
        dwlr.download(pkg.id)
于 2016-07-30T19:55:27.297 に答える