3

特定のテキストの本文に有効な実際の単語が含まれているか、または単にぎこちないテキストが含まれているかを識別するためのアイデアに興味があります。

私がすぐに遭遇する問題は、私たちが扱うデータは非常に国際的であるため、言語に依存しない必要があるということです。これは、統計的アプローチ、または非常に大規模な多言語ハッシュテーブルアプローチのいずれかを意味します。

多言語ハッシュテーブルは単純に見えますが、扱いにくく、おそらく非常に低速です。(または、少なくとも、速度と精度の間の妥協点です。)

しかし、私はこの状況で私に役立つ統計的アプローチのバックグラウンドを実際には持っておらず、誰かの経験や入力、または他の提案を非常に高く評価します。

4

2 に答える 2

2

ngram分析を使用して、テキストをサンプルテキストと比較できます。これは、文字または単語のいずれかになります。

GoogleのNGramViewerは、私が言っていることを視覚化するのに役立ちます。たとえば、「ハドック冷蔵庫」を検索した場合、発生はありません(たとえば、ジブリッシュ)。一方、「スタックオーバーフロー」は、コンピューターが発生したときに発生が目立つようになったことを示します。

于 2012-07-30T16:53:03.437 に答える
1

ドキュメントの言語を知っていますか、それとも判断できますか?単一言語の辞書をロードして有効な単語の割合を計算するのが極端に遅くなったり、メモリを大量に消費したりすることはないと思います。

どのくらい正確である必要がありますか?

于 2012-07-30T16:53:23.107 に答える