私は何十万ものファイルを処理しています。将来的には数百万人になる可能性があります。不正なファイルには、Excelスプレッドシートのテキストバージョン、またはバイナリではなく文でもないその他のテキストが含まれます。このようなファイルはCoreNLPを爆破させます(技術的には、これらのファイルはテキスト1キロバイトあたり15秒など、処理に長い時間がかかります)。これらのファイルを検出し、1秒未満で破棄したいと思います。
私が検討しているのは、ランダムに数千のファイルを取得し、最初のたとえば200文字を調べ、文字の分布を探して、何が正当で何が外れ値であるかを判断することです。たとえば、句読点がないか、句読点が多すぎる場合です。これは良いアプローチのように見えますか?証明されたより良いものはありますか?確かに、これは十分に機能し、潜在的に優れたファイルを破棄する可能性はありますが、めったにありません。
もう1つのアイデアは、アノテーターをトークン化して分割し、単語と文のカウントを実行することです。それも良い仕事をしているようで、すぐに戻ります。おそらく、これも失敗する可能性がある場合を考えることができます。