2

小さなライブラリ自動化ソフトウェアを開発していますが、単語が英語トルコ語かを判断する必要があります。シナリオの例は次のとおりです。

  • ユーザーが本のタイトルを入力します。
  • トルコ語または英語であると判断します。
  • 言語コンボボックスをそれぞれの言語に設定して、ユーザーがフォームに入力できるようにします。

私の友人は、「Google 翻訳に接続して使用する」ことを提案しましたが、これは合理的に思えますが、外部サービスまたはデータベースに接続しないアルゴリズムの方が適切です。(私は ç,ş,İ/w,x のようなトルコ語/英語の特定の文字も検索して決定します) したがって、おそらく文字の頻度などに基づいて、この仕事を行うためのアルゴリズムを検索しています。文献で入手できるものはありますか?前もって感謝します。(重要な場合はphp、mysqlを使用します)

4

2 に答える 2

3

テストしているサンプルが非常に小さい場合 (単一の単語またはフレーズ)、文字の頻度などの単純なヒューリスティックはあまり役に立ちません。英語のフレーズ「Jazz Quizzes」はおそらく多くの言語のプロファイルにより容易に適合するためです。英語より。

英語とトルコ語は十分に無関係であり、組み合わせは 1 つのみであるからです。

ただし、おそらく、2 つの言語の実際の単語のデータベースを使用する必要があります。その場合、独自のコーパスの構築や統計アルゴリズムの実装などに全力を尽くすよりも、おそらくサードパーティの API またはデータベースを使用することをお勧めします。

于 2013-04-07T21:20:20.923 に答える
2

コメント通り。

確認してください: PHP の文字列から言語を検出する

また:

http://wiki.apache.org/solr/LanguageDetection

Solr は確率で言語を提供できます (たとえば、この文は 90% が英語で、10% がトルコ語です)。

于 2013-04-07T21:22:29.300 に答える