問題タブ [language-model]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

213 問題

0 投票する

4 に答える

5331 参照

python - KenLM を使用して perplexity を計算するには?

これに基づいてモデルを構築するとしましょう:

困惑の式から ( https://web.stanford.edu/class/cs124/lec/languagemodeling.pdf )

逆対数式の合計を適用して内部変数を取得し、次に n 乗根を取ると、困惑数は異常に小さくなります。

データにない文で再試行:

そして、完全にドメインデータが不足している状態で再試行します:

文が長いほど困惑度が低いと予想されるが、その差が 1.0 未満で小数の範囲にあるのは奇妙である。

上記は、KenLM で perplexity を計算する正しい方法ですか? そうでない場合は、Python API を使用して KenLM を使用して複雑さを計算する方法を知っている人はいますか?

2017-05-08T06:52:48.410

0 投票する

2 に答える

1530 参照

machine-learning - Keras の lm_1b からの文字単語の埋め込み

非常によく知られている記事で Google によって公開されている、Keras NN モデルで事前にトレーニングされた単語埋め込みを使用したいと思います。彼らは、新しいモデルをトレーニングするためのコードと、埋め込みを提供しています。

ただし、ドキュメントからは、単純な python 関数呼び出しから特定の文字列 (単語) から埋め込みベクトルを取得する方法が明確ではありません。ドキュメントの多くは、おそらく感傷的な分析のために、文全体のベクトルをファイルにダンプすることに集中しているようです。

これまでのところ、次の構文を使用して事前トレーニング済みの埋め込みをフィードできることを確認しました。

ただし、さまざまなファイルとその構造を変換することは、私にpre_trained_matrix_hereはよくわかりません。

それらにはいくつかのソフトマックス出力があるため、どれが属するかはわかりません。さらに、入力内の単語を、それらが持つ単語の辞書に合わせる方法もわかりません。

これらの単語/文字埋め込みを keras で使用したり、モデルの文字/単語埋め込み部分を keras で構築したりして、他の NLP タスクにさらにレイヤーを追加できるようにする簡単な方法はありますか?

machine-learning nlp keras language-model word-embedding

2017-05-31T01:19:49.883

1 2 3 4 5 6 7 8 9 10

問題タブ [language-model]

python - KenLM を使用して perplexity を計算するには?

machine-learning - Keras の lm_1b からの文字単語の埋め込み

Reference