プロジェクトで有限状態変換器を操作しようとしています。ただし、FST を構築する際には、入力シンボルからの任意の長さの文字シーケンスを出力シンボルにする必要があります。これは、関連するテキストのコーパスからの個々の一意の文字にすぎません。さらに、各組み合わせの表現が同じ長さになるように、これらの任意の長さのシーケンスを均一に表現する必要があります。もちろん、任意の長さの場合、可能な最長の組み合わせは無限の長さになるため、関連するコーパスからの最長のドキュメントよりも長い組み合わせはあり得ないと仮定しましょう。
言い換えると、input_vocabulary
ofが与えられた['a', 'b', 'c']
場合、output_vocabulary
of['a', 'ab', 'acb', 'abcb']
はそれぞれ、長さ 4 のベクトルとして表され、各ベクトルの各項目が からの項目である必要がありますinput_vocabulary
。[ [0, 3, 3, 3], [0, 1, 3, 3], [0, 2, 1, 3], [0, 1, 2, 1] ]
私の唯一のアイデアは、この例では のようなパディングされたベクトルを使用する3
ことですが、私はこれに非常に慣れていないので、どんな助けも大歓迎です。
明確にするために、パッドトークンなしでこれを行う方法があるかどうか知りたいです。