ええと、それは英語と比較して名詞の文字数だけよりも少し複雑です。たとえば、日本語も英語とは文法構造が異なるため、特定の文は日本語でより多くの単語を使用し、他の文はより少ない単語を使用します。日本語がよくわからないので、韓国語を例に使ってご容赦ください。
韓国語では、主に文脈を使用して不足している単語を埋めることによって文が短くなるという事実のために、文は英語の文よりも短いことがよくあります。たとえば、「I love you」と言うのは、사랑해(「sarang hae」、単に「love」という動詞)のように短くすることも、完全修飾文저는당신을살앙해요(I [topic] you [object] ] love [動詞+丁寧な修飾語]。テキストでは、それがどのように書かれるかは文脈に依存します。文脈は通常、段落の前の文によって設定されます。
とにかく、この種のことを実際に知るためのアルゴリズムを持つことは非常に難しいので、統計を使用するだけで、おそらくはるかに良いでしょう。あなたがすべきことは、既知の日本語のテキストと英語のテキストが同じ意味を持つランダムなサンプルを使用することです。サンプルが大きいほど(そしてランダムであるほど)良いです...しかし、それらが本当にランダムである場合、数百を超えた数に大きな違いはありません。
さて、もう一つのことは、この比率は翻訳されるテキストのタイプによって完全に変わるということです。たとえば、高度に技術的な文書は、ずんぐりした小説よりもはるかに高い日本語/英語の長さの比率を持っている可能性が非常に高いです。
単に単語から単語への翻訳の辞書を使用することに関しては、それはおそらくうまく機能しないでしょう(そしておそらく間違っています)。同じ単語が毎回異なる言語で同じ単語に翻訳されるわけではありません(ただし、技術的な議論で発生する可能性ははるかに高くなります)。たとえば、美しいという言葉。韓国語で割り当てることができる単語は複数あるだけでなく(つまり、選択肢があります)、文のように(食べ物が美しい)、その選択を失うことがあります。これは、食べ物が見えるという意味ではありません。良い。私はそれがおいしいことを意味し、その単語の翻訳の私のオプションが変わります。そして、これは非常に一般的な状況です。
もう1つの大きな問題は、最適な翻訳です。人間が本当に苦手なこと、そしてコンピューターがはるかに苦手なこと。別のテキストから英語に翻訳された文書を校正するときはいつでも、それをはるかに短くするためのさまざまな方法を常に見ることができます。
したがって、統計を使用すると、翻訳間の長さの平均比率をかなり正確に計算できますが、これは、すべての翻訳が最適である場合とは大きく異なります。