私は文の難易度を推定するためのアルゴリズムに取り組んでいますが、私が見つけた方法は、現代のコンピューターができることを利用するには古すぎるようです。
現在使用されているアルゴリズムのほとんどは、約40〜60年前に開発されました。フレッシュキンケードは最も人気があり、国防総省や多くの州や企業によって文書の標準として今でも使用されています。フレッシュ・キンケードの学年、ガニング・フォグ・インデックス、SMOGインデックス、フライの読みやすさの公式、およびコールマン・リアウのインデックスを見てきました。
AutomatedReadabilityIndexを使用することにしました。
ARI = 4.71 * (characters / words) + .5 * (words / sentences) - 21.43;
コーパスベースの単語頻度リストに基づいて各単語に値を割り当て、これらの値を古い読みやすさの式に組み込むことは難しくないように思われます。
これは、最初の1000〜5000の最も頻繁な単語に対して実行できます。また、いくつかの異なる種類の単語や品詞に対して別々のリストを作成することもおそらく効果的でしょう。接続詞の存在は、間違いなく文の複雑さの兆候です。
これを行うための公式はありますか?