-1

私は何十万ものファイルを処理しています。将来的には数百万人になる可能性があります。不正なファイルには、Excelスプレッドシートのテキストバージョン、またはバイナリではなく文でもないその他のテキストが含まれます。このようなファイルはCoreNLPを爆破させます(技術的には、これらのファイルはテキスト1キロバイトあたり15秒など、処理に長い時間がかかります)。これらのファイルを検出し、1秒未満で破棄したいと思います。

私が検討しているのは、ランダムに数千のファイルを取得し、最初のたとえば200文字を調べ、文字の分布を探して、何が正当で何が外れ値であるかを判断することです。たとえば、句読点がないか、句読点が多すぎる場合です。これは良いアプローチのように見えますか?証明されたより良いものはありますか?確かに、これは十分に機能し、潜在的に優れたファイルを破棄する可能性はありますが、めったにありません。

もう1つのアイデアは、アノテーターをトークン化して分割し、単語と文のカウントを実行することです。それも良い仕事をしているようで、すぐに戻ります。おそらく、これも失敗する可能性がある場合を考えることができます。

4

4 に答える 4

1

不良ファイルを認識するように単純ベイズ分類器をトレーニングするだけではいけませんか?機能には、句読点の(ビン化された)パーセンテージ、数字のパーセンテージ、平均文長などを使用します。

于 2012-11-09T02:34:23.203 に答える
1

この種の処理パイプラインは、常に継続的な改善の状態にあります。そのプロセスを開始するために、私が最初に構築するのは、CoreNLPのタイミング動作に関する機器です。CoreNLPに時間がかかりすぎる場合は、問題のあるファイルを別のキューにキックアウトします。これが十分でない場合は、時間がかかりすぎるキューにある最も一般的なものの認識機能を記述し、CoreNLPに到達する前にそれらを迂回させることができます。このアプローチの主な利点は、事前に予期しない入力で機能することです。

于 2012-11-05T22:09:10.570 に答える
1

この種の問題には、主に 2 つのアプローチがあります。

1 つ目は、ファイルの内容を調べて、ファイル内のデータの統計分析に基づいて許容可能なテキストかどうかを判断するという、検討中のアプローチを取ることです。

2 つ目の方法は、ファイル拡張子などの何らかのメタ タグを使用して、確実に問題になるファイル (.pdf、.jpg など) を少なくとも排除することです。

処理量を削減するために、2 つのアプローチを組み合わせることをお勧めします。

一連のテストがあるパイプライン アプローチを検討することもできます。最初のテストでは、ファイル拡張子などのメタ データに基づいてファイルを除外します。次に、2 番目のステップでは、ファイルの最初の数バイトに対して予備的な統計チェックを行い、明らかな問題のあるファイルを除外します。3 番目のステップでは、より複雑な統計分析を行います。テキスト、4 番目は CoreNLP 拒否ステップを処理します。

ファイルの出所も、言語に関する考慮事項 (英語、フランス語、簡体字中国語のテキスト) があるかどうかについても言及していません。たとえば、テキストに UTF-8、UTF-16、またはその他のエンコーディングを使用した許容可能なテキスト ファイルはありますか?

また、互換性のないテキスト ファイルの検出と拒否について、CoreNLP アプリケーションをより適切に処理することは可能ですか?

于 2012-11-05T22:18:13.200 に答える
-1

ピーター、

あなたは明らかに電子情報開示のためのファイルを扱っています。ありとあらゆることが可能であり、ご存知のように、追い出されたものはすべて例外としてログに記録する必要があります。私はこれに直面しており、他の分析プロセッサからも同じことを聞いています。

上記のソリューションの一部、前処理およびインラインが役立ちます。一部の ediscovery ソリューションでは、テキストを SQL のフィールドにダンプして切り捨てたり、切り捨てたりしても、必要なものを取得できる場合があります。他のアプリでは、セマンティック クラスタリングや予測コーディングに関係するものは何でも、メタデータ (ファイル タイプなど)、ドキュメント タイプ分類ライブラリ、および以前の例、現在のサンプリング、または最善の方法に基づくエンティティ抽出を使用するプレフィルターを使用する方がよい場合があります。 「不良ファイル」の内容の性質について推測します。

幸運を。

于 2013-11-03T17:11:55.770 に答える