私は英語とドイツ語の2つの言語のドキュメントのセットを持っています。これらのドキュメントに関する使用可能なメタ情報はありません。プログラムはコンテンツのみを見ることができます。これに基づいて、プログラムはドキュメントが2つの言語のどちらで書かれているかを決定する必要があります。
数時間で実装できるこの問題の「標準」アルゴリズムはありますか?または、これを実行できる無料の.NETライブラリまたはツールキットですか?LingPipeについて知っていますが、
- Java
- 「セミコマーシャル」での使用は無料ではありません
この問題は驚くほど難しいようです。Google AJAX Language API (最初にこのサイトを検索して見つけた)をチェックしましたが、それは途方もなくひどいものでした。私が指摘したドイツ語の6つのWebページについては、1つの推測だけが正しかった。他の推測は、スウェーデン語、英語、デンマーク語、フランス語でした...
私が思いついた簡単なアプローチは、ストップワードのリストを使用することです。私のアプリは、Lucene.Netで分析するために、ドイツ語のドキュメントにこのようなリストをすでに使用しています。私のアプリがいずれかの言語からのストップワードの出現についてドキュメントをスキャンすると、出現回数が多い方が勝ちます。確かに非常に素朴なアプローチですが、それで十分かもしれません。残念ながら、興味深いトピックですが、自然言語処理の専門家になる時間がありません。