それで、私はスタンフォードパーサーを見つけて現在使用しています、そしてそれは文を分割するために素晴らしい働きをします。私たちの文章のほとんどはAPからのものなので、そのタスクには非常にうまく機能します。
ここに問題があります:
- たくさんのメモリを消費します(600Mたくさん)
- 後で使用するために多くのエッジケースを作成する必要がある場合、テキストの本文のフォーマットが実際に台無しになります。(ドキュメントプリプロセッサAPI呼び出しでは、ascii / utf8引用符を指定できません。すぐにラテックススタイルになり、収縮は(明らかに)異なる単語に分割され、偽のスペースは異なる場所に配置されます)
この目的のために、私は実際に行う必要がないことを補うために、すでに複数のパッチを作成しました。
基本的には、最初に文を分割する問題と同じくらい、使用するのが邪魔になるところです。
私の他のオプションは何ですか?他に役立つ可能性のあるNLPタイプのフレームワークはありますか?
私の元々の問題は、高い確率で文のエッジを検出できることです。