膨大な量のテキストから文章を解析しようとしています。Javaを使用して、OpenNLPやStanford'sParserなどのNLPツールから始めました。
しかし、ここで私は行き詰まります。これらのパーサーはどちらも非常に優れていますが、不均一なテキストになると失敗します。
たとえば、私のテキストでは、ほとんどの文はピリオドで区切られていますが、箇条書きのようにそうでない場合もあります。ここでは、両方の解析が無残に失敗します。
複数の文のターミネータのスタンフォード解析でオプションを設定しようとしましたが、出力はそれほど良くありませんでした!
何か案は??
編集:簡単にするために、区切り文字が改行( "\ n")またはピリオド( "。")のいずれかであるテキストを解析しようとしています...