私は出会い系の本のプロジェクトを行っています。私の主なアイデアは、「ngram」でそれを行うことです。ここにhttp://books.google.com/ngramsを入力すると、最も明確なグラフ (何年にもわたって一定でない値) を持つ ngram が見つかりました。次に、本を「読む」コードを python で書きました。本といくつかの ngram を取り、テキスト上の ngram の頻度を計算します。たとえば、「extarminate all human beings with exploxic grandes」というテキストの ngram "ex" は 0.05263157894736842 になります。このテキストには 2 つの "ex" があり、2 文字の組み合わせが 38 通りあるため、ngram は次のようになると思いました。 2/38。
だから私は 1 グラム (ABC) の多くの本でこの計算を行い、すべての本で多かれ少なかれ同じ数を得ました。そして、Google の ngram に戻ったところ、どうやら私が取得した数値と彼らが取得した数値が完全に異なっていたようです。たとえば、1gram の「a」は約 0.078、b は 0.0135 などだったのですが、Google の ngram は [a=1.54] と [b=0.0066] でした...
この計算はすべて間違っているという結論に達しました。さて、 ngram のREAL計算とは何かを尋ねています。私は本当にこれを理解する必要があるので、これがどのように機能するか知っているなら、私に知らせてください.
どうもありがとう :)
回答後に編集: 私の値は確率 (0 から 1) であるため、実際には Google よりも高い値が得られました。この値を % に変換するには、100 を掛ける必要があります。英語では単語としての「a」よりも文字としての「a」(8%)。