依存関係ツリー パーサーを使用してアプリケーションを作成しています。実際、パーサーはこれです: Parser Stanfordですが、解析したい文の単語の 1 文字または 2 文字を変更することはめったにありません。これは私にとって大きな問題です。なぜなら、これらの変更にはパターンが見られず、文の同じ単語を含む依存関係ツリーが必要だからです。
私が見ることができるのは、いくつかの単語だけがこれらの問題を抱えているということだけです。私はつぶやきデータベースを扱っています。したがって、このデータには多くの文法ミスがあります。たとえば、ハッシュタグ「#AllAmericanhumour」は AllAmericanhumor になります。1文字(u)が抜けています。
この問題を解決するためにできることはありますか? 最初のビューでは、編集距離アルゴリズムを使用することを考えましたが、それはより簡単な方法かもしれないと思います。
事前に感謝します