0

POSタグ付けをしています。トレーニング セットに次のトークンがある場合、各トークンを Word1/POStag および Word2/POStag と見なすのと、それらを Word1/Word2/POStag という 1 つの単語と見なすのとのどちらがよいでしょうか?

例: (POSTag を含める必要はありません)

Bard/EMS
Interstate/Johnson
Polo/Ralph
IBC/Donoghue
ISC/Bunker
Bendix/King
mystery/comedy
Jeep/Eagle
B/T
Hawaiian/Japanese
IBM/PC
Princeton/Newport
editing/electronic
Heller/Breene
Davis/Zweig
Fleet/Norstar
a/k/a
1/2

どんな提案でも大歓迎です。

4

1 に答える 1

0

例は、スラッシュの使用に関して 1 つのカテゴリに分類されないようですa/k/a。語句の頭字語で1/2あり、数字でありmystery/comedy、2 つの単語の間の何かを示します。構成語の扱いがないように感じます。問題のすべてのケースで機能するため、それらを一意の単語として処理することをお勧めします。解読段階で、タガーがそのような単語のこれまでに見たことのない例を提示される可能性が高い場合、多くの場合、単語自体ではなく、コンテキストに基づいて決定を下すことができます。

于 2012-10-15T09:44:05.840 に答える