machine-learning - Keras の lm_1b からの文字単語の埋め込み

Question

非常によく知られている記事で Google によって公開されている、Keras NN モデルで事前にトレーニングされた単語埋め込みを使用したいと思います。彼らは、新しいモデルをトレーニングするためのコードと、埋め込みを提供しています。

ただし、ドキュメントからは、単純な python 関数呼び出しから特定の文字列 (単語) から埋め込みベクトルを取得する方法が明確ではありません。ドキュメントの多くは、おそらく感傷的な分析のために、文全体のベクトルをファイルにダンプすることに集中しているようです。

これまでのところ、次の構文を使用して事前トレーニング済みの埋め込みをフィードできることを確認しました。

embedding_layer = Embedding(number_of_words??,
                            out_dim=128??,
                            weights=[pre_trained_matrix_here],
                            input_length=60??,
                            trainable=False)

ただし、さまざまなファイルとその構造を変換することは、私にpre_trained_matrix_hereはよくわかりません。

それらにはいくつかのソフトマックス出力があるため、どれが属するかはわかりません。さらに、入力内の単語を、それらが持つ単語の辞書に合わせる方法もわかりません。

これらの単語/文字埋め込みを keras で使用したり、モデルの文字/単語埋め込み部分を keras で構築したりして、他の NLP タスクにさらにレイヤーを追加できるようにする簡単な方法はありますか?

machine-learning - Keras の lm_1b からの文字単語の埋め込み

2 に答える 2

Related

Reference