私はテキストをnltkでトークン化しています。これは、wordpunct_tokenizerにフィードされた文だけです。これは収縮を分割します(例えば、'don't'から'don' + "''" +'t')が、私はそれらを1つの単語として保持したいと思います。テキストのより測定された正確なトークン化のためにメソッドを改良しているので、単純なトークン化を超えてnltkトークン化モジュールを深く掘り下げる必要があります。
これは一般的なことだと思います。以前に特定の問題に対処しなければならなかった可能性のある他の人からのフィードバックをお願いします。
編集:
ええ、これは私が知っている一般的なスプラッタショットの質問です
また、nlpの初心者として、収縮についてまったく心配する必要がありますか?
編集:
SExprTokenizerまたはTreeBankWordTokenizerは、私が今探していることを実行しているようです。