1

依存関係ツリー パーサーを使用してアプリケーションを作成しています。実際、パーサーはこれです: Parser Stanfordですが、解析したい文の単語の 1 文字または 2 文字を変更することはめったにありません。これは私にとって大きな問題です。なぜなら、これらの変更にはパターンが見られず、文の同じ単語を含む依存関係ツリーが必要だからです。

私が見ることができるのは、いくつかの単語だけがこれらの問題を抱えているということだけです。私はつぶやきデータベースを扱っています。したがって、このデータには多くの文法ミスがあります。たとえば、ハッシュタグ「#AllAmericanhumour」は AllAmericanhumor になります。1文字(u)が抜けています。

この問題を解決するためにできることはありますか? 最初のビューでは、編集距離アルゴリズムを使用することを考えましたが、それはより簡単な方法かもしれないと思います。

事前に感謝します

4

1 に答える 1

2

-tokenize.options フラグ/プロパティを使用してトークナイザーにオプションを与えることができます。この特定の正規化では、次のコマンドでオフにできます

-tokenize.options americanize=false

オフにできる他のさまざまな正規化もあります (PTBTokenizer またはhttp://nlp.stanford.edu/software/tokenizer.shtmlを参照してください。

-tokenize.options ptb3Escaping=false

ただし、パーサーは の出力のように見えるデータでトレーニングされるptb3Escaping=trueため、正規化されていないトークンを使用するとパフォーマンスが低下する傾向があります。そのため、代替戦略を検討することをお勧めします。

Java レベルで作業している場合は、単語トークンを見ることができます。これは実際にはマップであり、さまざまなキーがあります。OriginalTextAnnotation は、正規化されている場合でも、正規化されていないトークンを提供します。CharacterOffsetBeginAnnotation と CharacterOffsetEndAnnotation は、テキストへの文字オフセットにマップされます。

psそして、いくつかの答えを受け入れる必要があります:-)。

于 2012-07-28T17:50:12.870 に答える