問題タブ [language-detection]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - 非常に短いテキストの言語検出
平均 100 文字未満で、スラング (ツイート、ユーザー クエリ、SMS など) を含む短いテキストの言語を検出するアプリケーションを作成しています。
私がテストしたすべてのライブラリは、通常の Web ページではうまく機能しますが、非常に短いテキストでは機能しません。これまでのところ最高の結果をもたらしているライブラリは、共有ライブラリとして構築する必要があった Chrome の言語検出 (CLD) ライブラリです。
テキストが非常に短い単語で構成されている場合、CLD は失敗します。CLD のソース コードを見たところ、4 グラムを使用していることがわかったので、それが原因である可能性があります。
精度を向上させるために私が現在考えているアプローチは次のとおりです。
- ブランド名、番号、URL、および「ソフトウェア」、「ダウンロード」、「インターネット」などの単語を削除します
- 辞書を使用する テキストにしきい値を超える短い単語が多数含まれている場合、または含まれる単語が少なすぎる場合。
- この辞書は、ウィキペディアのニュース記事 + hunspell 辞書から作成されています。
このタスクに最も適したデータセットはどれですか? そして、どうすればこのアプローチを改善できますか?
これまでのところ、私は EUROPARL とウィキペディアの記事を使用しています。ほとんどの作業で NLTK を使用しています。
ruby-on-rails - 特定のテキストの言語を検出する方法
私の Rails 3 アプリケーションでは、ユーザーはフォーラムにメッセージを書き込むことができます。特定のメッセージの言語を特定したいと思います。英語、ロシア語、ヘブライ語に興味があります。そのようなタスクのための Ruby/Rails の組み込みライブラリはありますか? そうでない場合は、アイデアをいただければ幸いです。
jsp - Java サーブレットでユーザーの国と言語を自動的に選択する
リクエストの詳細 (IP アドレス、ブラウザ情報など) を使用して、Java サーブレットでユーザーの国と言語を自動的に検出する必要があります。ほとんどのユーザー (~90%) に対してこれらの設定を検出することは可能ですか?
java - Apache Tika への言語プロファイルの追加
どうにかしてそれを行う方法を説明することができた人を喜ばせることができます:-)
追加する必要がある言語の n-gram ファイルを取得する必要がありますか?
を作成しtika.language.override.properties
、他の lang コードを追加して、classPath に lang-code.ngp n-gram ファイルを追加することは問題ですか? その場合、どこで入手できますか? また、これだけの問題である場合、Tika がより多くの言語をサポートしていないのはなぜですか?
現在、言語検出でサポートされている言語は次のとおりです。
tika は従来の n-gram 表記を使用します
この言語検出アプリケーションは現在これらの言語をサポートしていますが、n-gram ファイルが少し異なります
JSON表記で
c++ - C++03 と C++11 の間に実行時に検出できる違いがあるとすれば、それは何ですか?
C コンパイラでコンパイルすると 0 を返し、C++ コンパイラでコンパイルすると 1 を返す関数を作成することができます ( の簡単な解決策
#ifdef __cplusplus
は興味深いものではありません)。
例えば:
もちろん、上記は次sizeof (char)
と同じでない場合にのみ機能しますsizeof (int)
別の、よりポータブルなソリューションは次のようなものです。
例が 100% 正しいかどうかはわかりませんが、おわかりいただけたでしょうか。同じ関数を書く他の方法もあると思います。
C++03 と C++11 の間に実行時に検出できる違いがあるとすれば、それは何ですか? つまり、適合する C++03 コンパイラまたは C++11 コンパイラでコンパイルされているかどうかを示すブール値を返す同様の関数を作成することは可能ですか?
google-chrome - Chrome拡張機能を使用して現在のタブ言語を検出しますか?
Chrome APIを使用して、現在のタブの現在のコンテンツの言語を検出する方法はありますか?
android - Androidでアプリをローカライズするためにロシア語を検出する方法
英語、スペイン語、ロシア語をサポートする必要があるアプリがあります。
これを検出するには、次の方法を使用します。
UserLanguage は、英語の場合は「en」、スペイン語の場合は「es」、ロシア語の場合は「ru」にする必要があります。それ以外の場合は英語になります。ただし、携帯電話のロケールをロシア語に設定すると、検出されません。Android Web サイトのドキュメントには、ロシア語については何も書かれていません。何か助けはありますか?
c++ - 言語検出
主に請求書で、OCRにtesseractを使用しています。ただし、tesseract では、ファイルの処理を開始する前に言語を指定する必要があります。
定義済みのデフォルト言語に基づいて ocr を実行しようと考えました。次に、結果のテキストを使用して、使用されている言語を確認したいと思います。デフォルトの言語でない場合は、tesseract からより良い結果を得るために再度処理します。
しかし、言語検出アルゴリズムを実装するにはどうすればよいでしょうか? 使用できる C++ ライブラリはありますか?
java - PostgreSQL のデータを使用した言語検出
列がテキストであるPostgreSQLにテーブルがあります。テスト目的で、各テキストの言語を識別できるライブラリまたはツールが必要です。
言語のインストールに問題があるため、PostgreSQL コードは必要ありませんが、データベースに接続してテキストを取得し、それを識別することができる任意の言語を歓迎します。
Perlスクリプトの回答で提案されたものを使用Lingua::Identify
しましたが、うまくいきましたが、結果は正確ではありません。
私が特定したいテキストは Web からのもので、ほとんどがポルトガルLingua::Identify
語ですが、類似言語であるフランス語、イタリア語、スペイン語に分類されています。
もっと正確なものが必要です。
java
およびタグを追加したのr
は、システムで使用している言語であり、それらを使用したソリューションは簡単に実装できるためですが、どの言語のソリューションも大歓迎です。
java - tika でペルシャ語の Web ページを検出するにはどうすればよいですか?
apache tika ツールキットでペルシア語の Web ページを検出するのに役立つサンプル コードが必要です。
apache.tika jar ファイルをダウンロードして、クラスパスに追加しました。しかし、このコードはペルシャ語ではエラーになりますが、英語では機能します。tika の languageIdentifier パッケージにペルシア語を追加するにはどうすればよいですか?