19

私はテキストをnltkでトークン化しています。これは、wordpunct_tokenizerにフィードされた文だけです。これは収縮を分割します(例えば、'don't'から'don' + "''" +'t')が、私はそれらを1つの単語として保持したいと思います。テキストのより測定された正確なトークン化のためにメソッドを改良しているので、単純なトークン化を超えてnltkトークン化モジュールを深く掘り下げる必要があります。

これは一般的なことだと思います。以前に特定の問題に対処しなければならなかった可能性のある他の人からのフィードバックをお願いします。

編集:

ええ、これは私が知っている一般的なスプラッタショットの質問です

また、nlpの初心者として、収縮についてまったく心配する必要がありますか?

編集:

SExprTokenizerまたはTreeBankWordTokenizerは、私が今探していることを実行しているようです。

4

3 に答える 3

13

どのトークナイザーを使用するかは、次に何をしたいかによって異なります。inspectorG4dgetが言ったように、一部の品詞タガーは分割収縮を処理します。その場合、分割は良いことです。しかし、多分それはあなたが望むものではありません。どのトークナイザーが最適かを判断するには、次のステップに必要なものを検討し、テキストをhttp://text-processing.com/demo/tokenize/に送信して、各NLTKトークナイザーの動作を確認します。

于 2012-07-06T01:39:05.470 に答える
2

収縮の数は非常に少ないので、それを行う1つの方法は、すべての収縮を検索して完全に同等のものに置き換え(例:「しない」から「しない」)、更新された文をwordpunct_tokenizerにフィードすることです。

于 2012-07-06T02:44:16.270 に答える
2

私は以前このプロジェクトでNLTKと協力しました。私がそうしたとき、私は収縮が考慮するのに役立つことに気づきました。

ただし、カスタムトークナイザーは作成せず、POSタグ付け後に処理しました。

これはあなたが探している答えではないと思いますが、それがいくらか役立つことを願っています

于 2012-07-05T19:54:53.540 に答える