問題タブ [torchtext]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
301 参照

python - 一連のテキストを入力として torchtext を使用する

シーケンスが文であるシーケンスのラベル付けに torchtext を使用しようとしています。したがって、それぞれExampleが文とそのタグのリストです。

もちろん、単語レベルでのトークン化とボキャブラリも必要ですが、これを行う明確な方法はないようです。たとえば、各例の要素に適用される のTabularDatasetリストがField必要ですが、入力を構成する文のリスト全体にテキスト フィールドをマップしたいと考えています。

たぶんこれが目的だと思いNestedFieldましたが、特に文字の埋め込みを対象としているようです。

何か不足していますか?これは torchtext で (あまり問題なく) 可能ですか? 私は答えとしてノーを受け入れても構わないと思っています:)

0 投票する
0 に答える
808 参照

python - BucketIterator が正しいサイズのバッチを返さない

で単純な LSTM 言語モデルを実装してPyTorchBucketIteratorますtorchtext

返されたバッチのサイズはコーパス全体のサイズであることが判明したため、初期化中に何か間違ったことをしているに違いありません。

私はすでにBPTTIterator作業を行っていますが、完全な文のバッチでもトレーニングできるようにしたいので、これが正しい方法だと思いましたBucketIterator

次のセットアップを使用します。私のコーパスは、各行に文を含む単純な txt ファイルです。

この反復子からのバッチは shape を持つと予想しますが、(batch_size, max_len)コーパス全体を shape の 1 つのテンソルに追加し(1, corpus_size)ます。

セットアップに欠けているものは何ですか?

編集:PennTreebankオブジェクトは a と互換性がないようです (ここに記載されているようBucketIteratorに、1 つしか含まれていませんhttp://mlexplained.com/2018/02/15/language-modeling-tutorial-in-torchtext-practical-torchtext-part-2 / )。1 だけで a を使用すると、機能しました。ExampleTabularDatasetField

パディングされた文のバッチを使用した言語モデリングをよりエレガントな方法で行う方法を誰かが知っている場合は、torchtextぜひ聞いてください!

0 投票する
1 に答える
1316 参照

vector - word2vecに似た.vecとしてBERT単語埋め込みを保存する方法

生成された BERT 単語埋め込みを Torchtext で語彙を構築するためのベクトルとして使用したい GloVe や word2vec などのベクトルをロードできますが、BERT からの単語埋め込みを Torchtext vocab で受け入れられる形式に保存する方法がわかりませんでした

このコードを試すと

次のエラーが表示されます。

0 投票する
5 に答える
4982 参照

anaconda - conda に torchtext 0.4.0 をインストールする方法

torchtext 0.4.0 ライブラリは存在しますが (pip からダウンロードできます)、動作しconda install torchtext=0.4.0ません。torchtext を anaconda 環境にダウンロードするにはどうすればよいですか?