問題タブ [torchtext]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 一連のテキストを入力として torchtext を使用する
シーケンスが文であるシーケンスのラベル付けに torchtext を使用しようとしています。したがって、それぞれExample
が文とそのタグのリストです。
もちろん、単語レベルでのトークン化とボキャブラリも必要ですが、これを行う明確な方法はないようです。たとえば、各例の要素に適用される のTabularDataset
リストがField
必要ですが、入力を構成する文のリスト全体にテキスト フィールドをマップしたいと考えています。
たぶんこれが目的だと思いNestedField
ましたが、特に文字の埋め込みを対象としているようです。
何か不足していますか?これは torchtext で (あまり問題なく) 可能ですか? 私は答えとしてノーを受け入れても構わないと思っています:)
python - BucketIterator が正しいサイズのバッチを返さない
で単純な LSTM 言語モデルを実装してPyTorch
いBucketIterator
ますtorchtext
。
返されたバッチのサイズはコーパス全体のサイズであることが判明したため、初期化中に何か間違ったことをしているに違いありません。
私はすでにBPTTIterator
作業を行っていますが、完全な文のバッチでもトレーニングできるようにしたいので、これが正しい方法だと思いましたBucketIterator
。
次のセットアップを使用します。私のコーパスは、各行に文を含む単純な txt ファイルです。
この反復子からのバッチは shape を持つと予想しますが、(batch_size, max_len)
コーパス全体を shape の 1 つのテンソルに追加し(1, corpus_size)
ます。
セットアップに欠けているものは何ですか?
編集:PennTreebank
オブジェクトは a と互換性がないようです (ここに記載されているようBucketIterator
に、1 つしか含まれていませんhttp://mlexplained.com/2018/02/15/language-modeling-tutorial-in-torchtext-practical-torchtext-part-2 / )。1 だけで a を使用すると、機能しました。Example
TabularDataset
Field
パディングされた文のバッチを使用した言語モデリングをよりエレガントな方法で行う方法を誰かが知っている場合は、torchtext
ぜひ聞いてください!
vector - word2vecに似た.vecとしてBERT単語埋め込みを保存する方法
生成された BERT 単語埋め込みを Torchtext で語彙を構築するためのベクトルとして使用したい GloVe や word2vec などのベクトルをロードできますが、BERT からの単語埋め込みを Torchtext vocab で受け入れられる形式に保存する方法がわかりませんでした
このコードを試すと
次のエラーが表示されます。
anaconda - conda に torchtext 0.4.0 をインストールする方法
torchtext 0.4.0 ライブラリは存在しますが (pip からダウンロードできます)、動作しconda install torchtext=0.4.0
ません。torchtext を anaconda 環境にダウンロードするにはどうすればよいですか?