4

ドキュメントがどの言語で書かれているかをおおよそ知る方法(プログラム、ライブラリ)はありますか?

i18n対応のCMS(Drupal)にインポートするために、混合言語のテキストドキュメント(〜500K)がたくさんあります。

完全に一致する必要はありません。推測するだけです。

4

5 に答える 5

6

識別する必要のあるすべての異なる言語のコーパスデータがあることを考えると、これを行うには非常に簡単な方法があります。これは、n-gramモデリングと呼ばれます。Lingua :: Identifyはすでにこれを行っていると思います。そのため、独自に実装するのではなく、それが最善の策です。

于 2008-11-02T18:10:34.437 に答える
0

このためのPerlモジュールがあるようです:Lingua :: Identify

ポール。

于 2008-11-02T18:05:13.030 に答える
0

あなたの最善の策は、あなたが探している言語に固有のキーワード(記事、そのようなもの)を探すことだと思います。たとえば、「Un」はスペイン語とフランス語の両方で表示されますが、「une」は識別可能なフランス語ですが、たとえば「unos」は識別可能なスペイン語です。発音区別符号も便利です。スペイン語とおそらくポルトガル語で「ñ」、フランス語で「ç」などが表示されます...そのようなものです。

編集-ポールの解決策はおそらく最高です。私が概説したような方法に加えて、いくつかの追加の方法を使用しているように見えます。

于 2008-11-02T18:06:15.600 に答える
0

「ドキュメントの言語を決定する」というGoogle検索を実行することで、私はあなたを助ける多くの異なるサイトを見つけました。最初のページの3番目のリンクは、最終的に、まさに必要なものであるGoogleCodeAPIの関数につながりました。

于 2008-11-02T18:07:52.120 に答える
0

Google Translation API はクールで、REST インターフェイスを備えています。しかし、大量の大きなドキュメント (抜粋を使用することもできます) を送信する必要があり、たとえ Google が Google であったとしても、これはフェアではないと思います。

ドキュメントも私のものではありません。クライアントに、それらを第三者に送信してもよいかどうか尋ねます (たとえ、遅かれ早かれ、Gそれらを取得したとしても ;))。

私はPerlの道をたどると思います...

于 2008-11-02T18:15:59.920 に答える