FastText が n-gram を使用して OOV 単語ベクトルを生成していると聞いたことがあります。FastText アーキテクチャに既に自動的に組み込まれていますか、それとも特定のパラメーターを調整する必要がありますか? Keras トークナイザーの oov_tokens のように。Fast Text で調整するパラメータをすでに探していますが、見つかりませんでした。
誰かが知っていて、その知識を共有したい場合、私はそれを非常に感謝しています.
ありがとうございました。
FastText が n-gram を使用して OOV 単語ベクトルを生成していると聞いたことがあります。FastText アーキテクチャに既に自動的に組み込まれていますか、それとも特定のパラメーターを調整する必要がありますか? Keras トークナイザーの oov_tokens のように。Fast Text で調整するパラメータをすでに探していますが、見つかりませんでした。
誰かが知っていて、その知識を共有したい場合、私はそれを非常に感謝しています.
ありがとうございました。
OOV 単語のベクトル生成は、fastText に統合されています (少なくとも、Facebook による元の実装では)。
これらのベクトルを生成するために、 fastText はサブワード n-grams を使用します。詳細については、このスレッドとこのビジュアル ガイドを参照してください。
このため、 OOV 単語のベクトルの作成に最も影響を与えるパラメーターは次のとおりです。
minn
(char ngram の最小長)maxn
(char ngram の最大長)fastText オプション/パラメーターの詳細については、公式ドキュメントを参照してください。