私はプロジェクトに取り組んでおり、大きなテキストの文の断片を検出するためのツールまたは API が必要です。特定のファイル内の文を検出するための OpenNLP など、多くのソリューションがあります。ただし、文法的に正しい文に属さない単語、フレーズ、またはイベント文字の組み合わせを見つけるという問題に対する明示的な解決策を見つけることができませんでした。
どんな助けでも大歓迎です。
ありがとう、
ローデロン
回避策として n-gram を使用できます。
参照用に実際の文を含む大量のテキスト コレクションがあるとします。1、2、3、4、5、またはそれ以上の単語のすべてのシーケンスを抽出し、テキストのフラグメントが n-gram として存在するかどうかをテキストで再確認できます。
n-gram は Google から直接ダウンロードできます: http://googleresearch.blogspot.de/2006/08/all-our-n-gram-are-belong-to-you.htmlですが、大量のトラフィックが必要になる場合があります。
この場合、私の Web サイトhttp://glm.rene-pickhardt.de/data/からウィキペディアの解析済みデータ セットを取得し、 https://githubからソース コードを取得することもでき ます。 .com/renepickhardt/generalized-language-modeling-toolkit (または srilm、kylm、opengrm などの他の ngram ツールキット) を自分で作成するには