2

スタンフォード タガーに関しては、スタンフォード タガーのモデルをトレーニングするために、独自のラベル付きコーパスを提供しました。ただし、タガーのモデルのタグ付け速度は、デフォルトの wsjleft3 タガー モデルよりもはるかに遅いことに気付きました。何がこれに貢献する可能性がありますか? また、モデルの速度を向上させるにはどうすればよいですか? (Penn treebank タグセットに加えて、3 つまたは 4 つのカスタム タグを追加しました)

4

1 に答える 1

4

(arch で) より多くの機能を追加すると、一般的に少し遅くなりますが (機能抽出は主なランタイム コストの 1 つであるため)、速度の 2 つの大きな決定要因は次のとおりです。

  • 機能で使用されるコンテキスト タグの数: left3words は前のタグと 2 番目の前のタグ (2) を使用するため、かなり高速ですが、双方向は 4 (両側に 2 つ) を使用するため、非常に低速です。1 つまたは 0 つのコンテキスト タグのみを使用するタガーは、さらに高速になります。
  • 一般的なタグ セットのサイズ、特に未知の単語に適用できるオープン クラス タグのセットのサイズ。(ただし、3 つまたは 4 つ追加してもほとんど違いはありません。何百ものタグが設定されたタグがある場合は問題になります。)
于 2010-07-14T18:11:05.013 に答える