nlp - テキストファイル内の文の断片を自動的に検出する方法

Question

私はプロジェクトに取り組んでおり、大きなテキストの文の断片を検出するためのツールまたは API が必要です。特定のファイル内の文を検出するための OpenNLP など、多くのソリューションがあります。ただし、文法的に正しい文に属さない単語、フレーズ、またはイベント文字の組み合わせを見つけるという問題に対する明示的な解決策を見つけることができませんでした。

どんな助けでも大歓迎です。

ありがとう、

ローデロン

score 1 · Accepted Answer

回避策として n-gram を使用できます。

参照用に実際の文を含む大量のテキストコレクションがあるとします。1、2、3、4、5、またはそれ以上の単語のすべてのシーケンスを抽出し、テキストのフラグメントが n-gram として存在するかどうかをテキストで再確認できます。

n-gram は Google から直接ダウンロードできます: http://googleresearch.blogspot.de/2006/08/all-our-n-gram-are-belong-to-you.htmlですが、大量のトラフィックが必要になる場合があります。

この場合、私の Web サイトhttp://glm.rene-pickhardt.de/data/からウィキペディアの解析済みデータセットを取得し、 https://githubからソースコードを取得することもできます。 .com/renepickhardt/generalized-language-modeling-toolkit (または srilm、kylm、opengrm などの他の ngram ツールキット) を自分で作成するには

nlp - テキスト ファイル内の文の断片を自動的に検出する方法

1 に答える 1

Related

Reference

nlp - テキストファイル内の文の断片を自動的に検出する方法