text - 自然言語生成 - 自然に聞こえるかどうかをテストする方法

Question

絵の分析に基づいて生成した一連の文章があります。ただし、それらがどれほど自然に聞こえるかをテストする必要があります。これを行うAPIまたはアプリケーションはありますか?

私はStandford Parserを使用して内訳を表示していますが、これは私が望んでいる仕事を正確に行うものではありません!

また、文がどれくらい似ているかをテストできますか? 文の一部をランダムに生成し、生成された文の多様性を確認したいので。

score 4 · Accepted Answer

言語モデルは、何らかのテキストを取り込んで確率を返すことができるものです。この確率は通常、指定されたテキストがどの程度「可能性が高い」かを示します。

通常、言語モデルは、大量のテキスト (「トレーニングコーパス」と呼ばれます) を取得し、そこからいくつかの統計 (「モデル」を表す) を計算し、それらの統計を使用して新しい、以前の言語を取り込むことによって構築します。目に見えない文とそれらの確率を返します。
おそらく、「言語モデル」、「ユニグラムモデル」、「n-gram モデル」をグーグルで検索し、結果の一部をクリックして、前の文を理解するのに役立つ記事またはプレゼンテーションを見つける必要があります。（あなたの既存の背景が何であるかがわからないため、適切なチュートリアルをお勧めするのは難しいです）

とにかく、言語モデルについて考える 1 つの方法は、言語モデルは新しいテキストを取り込み、その新しいテキストが言語モデルが作成されたトレーニングコーパスにどの程度類似しているかを伝えるシステムであるということです。したがって、2 つの言語モデルを構築した場合、1 つはシェイクスピアによって書かれたすべての戯曲から、もう 1 つは多数の法律文書から構築された場合、2 番目の言語モデルは、取得したばかりの新しい法律文書に対して判決を下す可能性がはるかに高くなるはずです。（最初のモデルと比較して）最初のモデルは、他の古い英語の劇（他の作者によって書かれた）の可能性がはるかに高いはずです。現代の法律用語よりも

与えられた文に対してスタンフォードパーサーが返してくるものはすべて、言語モデルを使用して生成されたものです。これらの機能がどのように構築されているかを考える 1 つの方法は、コンピューターが、与えられた文に対して考えられるすべてのタグの組み合わせと考えられるすべての解析ツリーを試し、巧妙な言語モデルを使用して、タグの最も可能性の高いシーケンスと、そこに最も可能性の高い解析ツリーがあり、それらを返してくれました。

問題に戻ると、自然に聞こえるテキストから言語モデルを構築し、その言語モデルを使用して、自然さを測定したい文を評価する必要があります。これを行うには、適切なトレーニングコーパスを特定し、構築する言語モデルの種類を決定する必要があります。

これ以上のものが思いつかない場合は、ウィキペディアの記事のコレクションが、自然に聞こえる英語がどのようなものかを表す良いトレーニングコーパスとして役立つかもしれません。
モデルの種類については、「n-gram モデル」で十分でしょう。「隠れマルコフモデル」や「PCFG」(リンク先のスタンフォードページを動かしているもの) などのより複雑なモデルを使用すると、間違いなくさらに良くなりますが、n グラムは間違いなく最も単純なものです。

text - 自然言語生成 - 自然に聞こえるかどうかをテストする方法

1 に答える 1

Related

Reference