問題タブ [huggingface-datasets]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - ハグフェイスのサブ機能を使用してデータを適合させる方法
2つの文をそれぞれトークン化し、出力をdatasets.Sequenceとして事前トレーニング済みモデルが取るようinput_ids
に、token_type_ids
およびattention_mask
入力として保存しようとしています。次のようなデータセットを作りたい
これは、ドキュメントの平坦化セクションに示されています
データセットをマップするためのコードは次のとおりです。
それからそれは行く
質問:
マップ機能を変更するにはどうすればよいですか?
追加情報:
トレースバック:
python - python 環境からインターネットに接続せずに python huggingface datasets パッケージをインストールする
私のpython環境からインターネット接続にアクセスできません。このライブラリをインストールしたい
パッケージに必要なファイルがあるこのページにも気付きました。そのファイルをPython環境にコピーしてから、以下のコードを実行して、そのパッケージをインストールしました
しかし、以下のコードを試すと
それはエラーをスローします
ConnectionError: Couldn't reach https://raw.githubusercontent.com/huggingface/datasets/1.18.3/datasets/imdb/imdb.py (error 403)
https://raw.githubusercontent.com/huggingface/datasets/1.18.3/datasets/imdb/imdb.py
Python環境の外からファイルにアクセスできます
この行が機能するためには、どのファイルをコピーする必要があり、他にどのようなコード変更を行う必要がありdatasets.load_dataset('imdb', split =['train', 'test'])
ますか?
#アップデート1=====================
以下の提案に従い、Python環境内で以下のファイルをコピーしました。そう
最後のファイルが由来しhttp://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz
、他のファイルが由来するgithub.com/huggingface/datasets/tree/master/datasets/imdb
それから私は試しました
しかし、私は以下のエラーが発生します:(
私も試しました
しかし、エラーが発生します