私はマレットの初心者です。マレットシンプルタガー/CRFを使用してフレーズを試しています。マレットサイトでドキュメントを検索し、ユーザーアーカイブも調べましたが、何の役にも立ちませんでした。
簡単なタグ付けのために木槌をトレーニングしてみましたが、それはうまく機能します。私のデータは次のようになります(トレーニング間には異なるセットであることを示す改行があることに注意してください)
サンプルトレーニングデータ:
where STOPWORD
is STOPWORD
chicago CITY
<---Newline---->
Sunnyvale CITY
<---Newline---->
Chicago CITY
<---Newline---->
Washington CITY
<---Newline---->
What STOPWORD
is STOPWORD
Sunnyvale CITY
time ASK
<---Newline---->
new STOPWORD
<---Newline---->
place STOPWORD
私が抱えている問題は、都市名が複数の単語である場合です、と言います
new york CITY
上記のトレーニングデータでは、「新規」はストップワードの質問であることに注意してください。
- Simple taggerの場合、上記の表現は問題ありませんか?そうでない場合、どのように私は薬局を表すのですか?
- SimpleTagger/CRFが前の「n」の単語を使用してタグに到達できるようにデータを表現する方法がない場合はどうでしょうか。つまり、私の入力のチャンクのようなもの