python - python 環境からインターネットに接続せずに python huggingface datasets パッケージをインストールする

Question

私のpython環境からインターネット接続にアクセスできません。このライブラリをインストールしたい

パッケージに必要なファイルがあるこのページにも気付きました。そのファイルをPython環境にコピーしてから、以下のコードを実行して、そのパッケージをインストールしました

pip install 'datasets_package/datasets-1.18.3.tar.gz'
Successfully installed datasets-1.18.3 dill-0.3.4 fsspec-2022.1.0 multiprocess-0.70.12.2 pyarrow-6.0.1 xxhash-2.0.2

しかし、以下のコードを試すと

import datasets
datasets.load_dataset('imdb', split =['train', 'test'])

それはエラーをスローします ConnectionError: Couldn't reach https://raw.githubusercontent.com/huggingface/datasets/1.18.3/datasets/imdb/imdb.py (error 403)

https://raw.githubusercontent.com/huggingface/datasets/1.18.3/datasets/imdb/imdb.pyPython環境の外からファイルにアクセスできます

この行が機能するためには、どのファイルをコピーする必要があり、他にどのようなコード変更を行う必要がありdatasets.load_dataset('imdb', split =['train', 'test']) ますか?

#アップデート1=====================

以下の提案に従い、Python環境内で以下のファイルをコピーしました。そう

os.listdir('huggingface_imdb_data/')
['dummy_data.zip',
 'dataset_infos.json',
 'imdb.py',
 'README.md',
 'aclImdb_v1.tar.gz']

最後のファイルが由来しhttp://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz、他のファイルが由来するgithub.com/huggingface/datasets/tree/master/datasets/imdb

それから私は試しました

import datasets
#datasets.load_dataset('imdb', split =['train', 'test'])
datasets.load_dataset('huggingface_imdb_data/aclImdb_v1.tar.gz')

しかし、私は以下のエラーが発生します:(

HTTPError: 403 Client Error: Forbidden for url: https://huggingface.co/api/datasets/huggingface_imdb_data/aclImdb_v1.tar.gz?full=true

私も試しました

datasets.load_from_disk('huggingface_imdb_data/aclImdb_v1.tar.gz')

しかし、エラーが発生します

FileNotFoundError: Directory huggingface_imdb_data/aclImdb_v1.tar.gz is neither a dataset directory nor a dataset dict directory.

python - python 環境からインターネットに接続せずに python huggingface datasets パッケージをインストールする

1 に答える 1

Related

Reference