python - 175 MB のファイルをトークン化する nltk

翻译自：https://stackoverflow.com/questions/12610637 2012-09-26T21:23:23.663

221 次

nltk には、トークン化されたテキストを書き出すためのシリアル化形式がありますか? 私は 175MB のテキストファイルを持っていて、それをオブジェクトに入れるnltk.Textのに 4 分かかります (Macbook Retina の場合、つまり、最先端のプロセッサ、8 ギガの RAM と SSD)。ディスクからの raw ファイルのロードは、ほぼ瞬時に行われます。

作業を行う関数は次のとおりです。

def _load_all_text(self):
    if not self._text_loaded:
        file = open("all_posts","r")
        self._text = file.read()
        self._text_loaded = True

def nltk_text(self):
    self._load_all_text()
    return nltk.Text(nltk.word_tokenize(self._text))

完了するのに 4 分かかるなんて信じられません。これは、Python ガベージコレクターと、nltk が構築するリストオブジェクトのせいだと思います。私はピクルスについてあまり知りません。リストをピクルスにすることでうまくいきますか (つまり、問題のリストはの結果ですword_tokenise)?

python - 175 MB のファイルをトークン化する nltk

0 に答える 0

Related

Reference