問題タブ [huggingface-datasets]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
19 参照

python - ハグフェイスのサブ機能を使用してデータを適合させる方法

2つの文をそれぞれトークン化し、出力をdatasets.Sequenceとして事前トレーニング済みモデルが取るようinput_idsに、token_type_idsおよびattention_mask入力として保存しようとしています。次のようなデータセットを作りたい

これは、ドキュメントの平坦化セクションに示されています

データセットをマップするためのコードは次のとおりです。

それからそれは行く

質問:

マップ機能を変更するにはどうすればよいですか?

追加情報:

トレースバック:

0 投票する
1 に答える
86 参照

python - python 環境からインターネットに接続せずに python huggingface datasets パッケージをインストールする

私のpython環境からインターネット接続にアクセスできません。このライブラリをインストールしたい

パッケージに必要なファイルがあるこのページにも気付きました。そのファイルをPython環境にコピーしてから、以下のコードを実行して、そのパッケージをインストールしました

しかし、以下のコードを試すと

それはエラーをスローします ConnectionError: Couldn't reach https://raw.githubusercontent.com/huggingface/datasets/1.18.3/datasets/imdb/imdb.py (error 403)

https://raw.githubusercontent.com/huggingface/datasets/1.18.3/datasets/imdb/imdb.pyPython環境の外からファイルにアクセスできます

この行が機能するためには、どのファイルをコピーする必要があり、他にどのようなコード変更を行う必要がありdatasets.load_dataset('imdb', split =['train', 'test']) ますか?

#アップデート1=====================

以下の提案に従い、Python環境内で以下のファイルをコピーしました。そう

最後のファイルが由来しhttp://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz、他のファイルが由来するgithub.com/huggingface/datasets/tree/master/datasets/imdb

それから私は試しました

しかし、私は以下のエラーが発生します:(

私も試しました

しかし、エラーが発生します