python - Gensim の BleiCorpus と AP のデータセット: IO エラー

Question

Python を使用した本の「機械学習システムの構築」のトピックモデリング/潜在的ディリクレ配分 (LDA) に関するチュートリアルに従おうとしています。

この本ではあまり詳しく説明していませんが、トピックモデリングの最初の部分でエラーが返されます。

from gensim import corpora, models, similarities
corpus = corpora.BleiCorpus('./data/ap/ap.dat', './data/ap/vocab.txt')

エラー：

     63 
     64         self.fname = fname
---> 65         with utils.smart_open(fname_vocab) as fin:
     66             words = [utils.to_unicode(word).rstrip() for word in fin]
     67         self.id2word = dict(enumerate(words))

/Users/user/Library/Enthought/Canopy_64bit/User/lib/python2.7/site-packages/gensim/utils.pyc in smart_open(fname, mode)
    659         from gzip import GzipFile
    660         return make_closing(GzipFile)(fname, mode)
--> 661     return open(fname, mode)
    662 
    663 

IOError: [Errno 2] No such file or directory: './data/ap/vocab.txt'

vocab.txt ファイルは存在しませんが、存在するはずのディレクトリに切り替えると、次のことがわかります。

$ ls download_ap.sh download_wp.sh preprocess-wikidata.sh

apデータを個別にダウンロードする必要があるようです（本には記載されていません）ので、次のようにします：

sh download_ap.sh

私はこれを得る：

download_ap.sh: line 2: wget: command not found
tar: Error opening archive: Failed to open 'ap.tgz'

この問題を解決する方法を知っている人はいますか?

ありがとうございました

python - Gensim の BleiCorpus と AP のデータセット: IO エラー

2 に答える 2

Related

Reference