algorithm - 日本語ソースから英訳単語数を推定するアルゴリズム

Question

私は、日本語からの翻訳が英単語の数になると見積もる方法を考え出そうとしています. 日本語には、漢字、ひらがな、カタカナの 3 つの主なスクリプトがあり、それぞれの文字と単語の平均比率が異なります (漢字が最も低く、カタカナが最も高い)。

例:

computer: コンピュータ (カタカナ - 6 文字); 計算機（漢字：3文字）
クジラ: くじら (ひらがな -- 3 文字); 鯨（漢字：1文字）

データとして、私は日本語の単語とその英訳の大規模な用語集と、一致する日本語の原文文書とその英訳のかなり大きなコーパスを持っています。ソーステキストの漢字、ひらがな、カタカナの文字数を数え、これが英単語の数になる可能性を見積もる式を考え出したい.

score 3 · Accepted Answer

Borland（現在のEmbarcadero）が英語から英語以外について考えていることは次のとおりです。

英語の文字列の長さ（文字数）

Expected increase
1-5      100%
6-12      80%
13-20     60%
21-30     40%
31-50     20%
over 50   10%

これを（多少の変更を加えて）日本人から外国人に適用できると思います。

あなたが考慮したいと思うかもしれないもう一つの要素は言語のトーンです。英語では、「[OK]を押す」のように、指示は命令型として表現されます。しかし、日本語では、命令は失礼と見なされ、「OKボタンを押してください」のように敬語（または敬語）で指示を表現する必要があります。

3文字の漢字コンボに注意してください。ビッグワードの多くは、国際化（国際化：20文字）、高可用性（高可用性：17文字）などの3文字または4文字の漢字コンボに変換されます。

score 1 · Accepted Answer

ええと、それは英語と比較して名詞の文字数だけよりも少し複雑です。たとえば、日本語も英語とは文法構造が異なるため、特定の文は日本語でより多くの単語を使用し、他の文はより少ない単語を使用します。日本語がよくわからないので、韓国語を例に使ってご容赦ください。

韓国語では、主に文脈を使用して不足している単語を埋めることによって文が短くなるという事実のために、文は英語の文よりも短いことがよくあります。たとえば、「I love you」と言うのは、사랑해（「sarang hae」、単に「love」という動詞）のように短くすることも、完全修飾文저는당신을살앙해요（I [topic] you [object] ] love [動詞+丁寧な修飾語]。テキストでは、それがどのように書かれるかは文脈に依存します。文脈は通常、段落の前の文によって設定されます。

とにかく、この種のことを実際に知るためのアルゴリズムを持つことは非常に難しいので、統計を使用するだけで、おそらくはるかに良いでしょう。あなたがすべきことは、既知の日本語のテキストと英語のテキストが同じ意味を持つランダムなサンプルを使用することです。サンプルが大きいほど（そしてランダムであるほど）良いです...しかし、それらが本当にランダムである場合、数百を超えた数に大きな違いはありません。

さて、もう一つのことは、この比率は翻訳されるテキストのタイプによって完全に変わるということです。たとえば、高度に技術的な文書は、ずんぐりした小説よりもはるかに高い日本語/英語の長さの比率を持っている可能性が非常に高いです。

単に単語から単語への翻訳の辞書を使用することに関しては、それはおそらくうまく機能しないでしょう（そしておそらく間違っています）。同じ単語が毎回異なる言語で同じ単語に翻訳されるわけではありません（ただし、技術的な議論で発生する可能性ははるかに高くなります）。たとえば、美しいという言葉。韓国語で割り当てることができる単語は複数あるだけでなく（つまり、選択肢があります）、文のように（食べ物が美しい）、その選択を失うことがあります。これは、食べ物が見えるという意味ではありません。良い。私はそれがおいしいことを意味し、その単語の翻訳の私のオプションが変わります。そして、これは非常に一般的な状況です。

もう1つの大きな問題は、最適な翻訳です。人間が本当に苦手なこと、そしてコンピューターがはるかに苦手なこと。別のテキストから英語に翻訳された文書を校正するときはいつでも、それをはるかに短くするためのさまざまな方法を常に見ることができます。

したがって、統計を使用すると、翻訳間の長さの平均比率をかなり正確に計算できますが、これは、すべての翻訳が最適である場合とは大きく異なります。

score 1 · Accepted Answer

日本語と英語の経験豊富な翻訳者として、これを数値化するのは非常に難しいと言えますが、通常、私の経験では、日本語から翻訳された英語のテキストはソーステキストの 200% 近くの文字数です。日本語には、文字通りに翻訳できず、英語で説明する必要がある、文化的に特有の句や名詞がたくさんあります。私が翻訳するとき、読者に意味を伝えるために、日本語の 1 つの文を英語で 1 つの段落にすることは珍しくありません。ここに私の例があります：

「懐かしい」</p>

これは文字通りノスタルジックを意味します。ただし、日本語では感嘆符の 1 つのフレーズとして使用できます。しかし、懐かしさを英語で伝えるには、もっと多くの文脈が必要です。たとえば、その 1 つのフレーズを文に変える必要がある場合があります。

「古い小学校のそばを歩いていると、昔の思い出があふれ出しました。」

これが、日本語と英語の間の機械翻訳が不可能な理由です。

score 1 · Accepted Answer

翻訳者およびローカリゼーションスペシャリストとしての私の経験では、大まかな目安として、英単語あたり 2 文字の日本語を使用します。

score 1 · Accepted Answer

線形近似から始めます。approx_english_words = a1*no_characters_in_script1 + a2 * no_chars_in_script2 + a3 * no_chars_in_script3係数 a1、a2、a3 は、線形最小二乗法を使用してデータに適合します。

これがうまく近似できない場合は、適合しない理由 (専門用語など) について最悪のケースを調べます。

score 0 · Accepted Answer

それは十分に単純なようです-あなたはただ比率を見つける必要があります。

スクリプトごとに、用語集のスクリプト文字と英語の単語の数を数え、比率を計算します。

これは、日本語の単語がどのスクリプトに含まれているか、および翻訳に含まれる英語の同等のフレーズが何であるかを検出できることを前提として、日本語のソースドキュメントで補強できます。それ以外の場合は、比率を推測するか、これをソースデータとして無視する必要があります。

次に、あなたが言うように、あなたの原文の各スクリプトの単語数を数え、乗算を行い、そしてあなたは大まかな見積もりを持っているはずです。

score 0 · Accepted Answer

私の（わずかではありますが）経験から、言語に関係なく、テキストのブロックが同等の情報を伝えるために必要な印刷スペースは同じであることを示しているようです。したがって、テキストの大きなブロックの場合、英語の各文字に幅カウントを割り当て (これは Times New Roman などの一般的なフォントから取得します)、同様に一般的な日本語フォントを同じポイントサイズで使用して、必要な文字数。

algorithm - 日本語ソースから英訳単語数を推定するアルゴリズム

7 に答える 7

Related

Reference