4

平均 100 文字未満で、スラング (ツイート、ユーザー クエリ、SMS など) を含む短いテキストの言語を検出するアプリケーションを作成しています。

私がテストしたすべてのライブラリは、通常の Web ページではうまく機能しますが、非常に短いテキストでは機能しません。これまでのところ最高の結果をもたらしているライブラリは、共有ライブラリとして構築する必要があった Chrome の言語検出 (CLD) ライブラリです。

テキストが非常に短い単語で構成されている場合、CLD は失敗します。CLD のソース コードを見たところ、4 グラムを使用していることがわかったので、それが原因である可能性があります。

精度を向上させるために私が現在考えているアプローチは次のとおりです。

  • ブランド名、番号、URL、および「ソフトウェア」、「ダウンロード」、「インターネット」などの単語を削除します
  • 辞書を使用する テキストにしきい値を超える短い単語が多数含まれている場合、または含まれる単語が少なすぎる場合。
  • この辞書は、ウィキペディアのニュース記事 + hunspell 辞書から作成されています。

このタスクに最も適したデータセットはどれですか? そして、どうすればこのアプローチを改善できますか?

これまでのところ、私は EUROPARL とウィキペディアの記事を使用しています。ほとんどの作業で NLTK を使用しています。

4

3 に答える 3

6

非常に短いテキストの言語検出は現在の研究テーマであるため、決定的な答えを出すことはできません。Twitter データのアルゴリズムは、Carter、Tsagkias、および Weerkamp 2011 に記載されています。そこの参考文献も参照してください。

于 2011-04-10T22:17:43.760 に答える
5

はい、これは研究のトピックであり、いくつかの進歩が見られます。

たとえば、http://code.google.com/p/language-detection/の「language-detection」の作成者は、ショート メッセージ用の新しいプロファイルを作成しました。現在、17 の言語をサポートしています。

主に英語とスペイン語で書かれた約 500 件のツイートのコレクションについて、Bing Language Detector と比較しました。精度は次のとおりです。

   Bing = 71.97%
   Language-Detection Tool with new profiles = 89.75%

詳細については、彼のブログをご覧ください: http://shuyo.wordpress.com/2011/11/28/language-detection-supported-17-language-profiles-for-short-messages/

于 2012-01-19T18:29:54.307 に答える
-2

また、学名や薬名なども省略してください。あなたのアプローチは私にはかなり良いようです。ウィキペディアには標準語が含まれているため、辞書を作成するのに最適なオプションだと思います。時間がない場合は、新聞を使用することもできます。

于 2012-04-11T09:59:47.423 に答える