特定のテキストの本文に有効な実際の単語が含まれているか、または単にぎこちないテキストが含まれているかを識別するためのアイデアに興味があります。
私がすぐに遭遇する問題は、私たちが扱うデータは非常に国際的であるため、言語に依存しない必要があるということです。これは、統計的アプローチ、または非常に大規模な多言語ハッシュテーブルアプローチのいずれかを意味します。
多言語ハッシュテーブルは単純に見えますが、扱いにくく、おそらく非常に低速です。(または、少なくとも、速度と精度の間の妥協点です。)
しかし、私はこの状況で私に役立つ統計的アプローチのバックグラウンドを実際には持っておらず、誰かの経験や入力、または他の提案を非常に高く評価します。