nlp - 非常に短いテキストの言語検出

Question

平均 100 文字未満で、スラング (ツイート、ユーザークエリ、SMS など) を含む短いテキストの言語を検出するアプリケーションを作成しています。

私がテストしたすべてのライブラリは、通常の Web ページではうまく機能しますが、非常に短いテキストでは機能しません。これまでのところ最高の結果をもたらしているライブラリは、共有ライブラリとして構築する必要があった Chrome の言語検出 (CLD) ライブラリです。

テキストが非常に短い単語で構成されている場合、CLD は失敗します。CLD のソースコードを見たところ、4 グラムを使用していることがわかったので、それが原因である可能性があります。

精度を向上させるために私が現在考えているアプローチは次のとおりです。

このタスクに最も適したデータセットはどれですか? そして、どうすればこのアプローチを改善できますか?

これまでのところ、私は EUROPARL とウィキペディアの記事を使用しています。ほとんどの作業で NLTK を使用しています。

score 6 · Accepted Answer

非常に短いテキストの言語検出は現在の研究テーマであるため、決定的な答えを出すことはできません。Twitter データのアルゴリズムは、Carter、Tsagkias、および Weerkamp 2011 に記載されています。そこの参考文献も参照してください。

score 5 · Accepted Answer

はい、これは研究のトピックであり、いくつかの進歩が見られます。

たとえば、http://code.google.com/p/language-detection/の「language-detection」の作成者は、ショートメッセージ用の新しいプロファイルを作成しました。現在、17 の言語をサポートしています。

主に英語とスペイン語で書かれた約 500 件のツイートのコレクションについて、Bing Language Detector と比較しました。精度は次のとおりです。

   Bing = 71.97%
   Language-Detection Tool with new profiles = 89.75%

score -2 · Accepted Answer

また、学名や薬名なども省略してください。あなたのアプローチは私にはかなり良いようです。ウィキペディアには標準語が含まれているため、辞書を作成するのに最適なオプションだと思います。時間がない場合は、新聞を使用することもできます。

3 に答える 3