Python を使用した本の「機械学習システムの構築」のトピック モデリング/潜在的ディリクレ配分 (LDA) に関するチュートリアルに従おうとしています。
この本ではあまり詳しく説明していませんが、トピック モデリングの最初の部分でエラーが返されます。
from gensim import corpora, models, similarities
corpus = corpora.BleiCorpus('./data/ap/ap.dat', './data/ap/vocab.txt')
エラー:
63
64 self.fname = fname
---> 65 with utils.smart_open(fname_vocab) as fin:
66 words = [utils.to_unicode(word).rstrip() for word in fin]
67 self.id2word = dict(enumerate(words))
/Users/user/Library/Enthought/Canopy_64bit/User/lib/python2.7/site-packages/gensim/utils.pyc in smart_open(fname, mode)
659 from gzip import GzipFile
660 return make_closing(GzipFile)(fname, mode)
--> 661 return open(fname, mode)
662
663
IOError: [Errno 2] No such file or directory: './data/ap/vocab.txt'
vocab.txt ファイルは存在しませんが、存在するはずのディレクトリに切り替えると、次のことがわかります。
$ ls download_ap.sh download_wp.sh preprocess-wikidata.sh
apデータを個別にダウンロードする必要があるようです(本には記載されていません)ので、次のようにします:
sh download_ap.sh
私はこれを得る:
download_ap.sh: line 2: wget: command not found
tar: Error opening archive: Failed to open 'ap.tgz'
この問題を解決する方法を知っている人はいますか?
ありがとうございました