machine-learning - 最新の文章可読性アルゴリズム

Question

私は文の難易度を推定するためのアルゴリズムに取り組んでいますが、私が見つけた方法は、現代のコンピューターができることを利用するには古すぎるようです。

現在使用されているアルゴリズムのほとんどは、約40〜60年前に開発されました。フレッシュキンケードは最も人気があり、国防総省や多くの州や企業によって文書の標準として今でも使用されています。フレッシュ・キンケードの学年、ガニング・フォグ・インデックス、SMOGインデックス、フライの読みやすさの公式、およびコールマン・リアウのインデックスを見てきました。

AutomatedReadabilityIndexを使用することにしました。

ARI = 4.71 * (characters / words) + .5 * (words / sentences) - 21.43;

コーパスベースの単語頻度リストに基づいて各単語に値を割り当て、これらの値を古い読みやすさの式に組み込むことは難しくないように思われます。
これは、最初の1000〜5000の最も頻繁な単語に対して実行できます。また、いくつかの異なる種類の単語や品詞に対して別々のリストを作成することもおそらく効果的でしょう。接続詞の存在は、間違いなく文の複雑さの兆候です。

これを行うための公式はありますか？

score 0 · Accepted Answer

機械学習の式で定数がハードコードされているのを見かけたら、疑いを持ってください...

Automated Readability Indexの数値は、モデルの構築に使用されたデータセットと、それを表すために選択された機能に適したモデルを表しています。適合性以外に、学校の学年に合わせて調整された一般的な尺度であることも別の利点であると思います.

読みやすさに単語の頻度を追加するというあなたのアイデアは、優れた機能のように思えます。結局のところ、単純な文法の文になじみのない単語が 1 つでもあると、それが読めなくなる可能性があります。

単語の頻度を考慮して、文を表現する方法を選択する必要があります。例としては、文全体の確率、珍しい単語の数、最小頻度などがあります。

次に、データセットを構築し、そこからモデルのパラメーターを学習する必要があります。最も簡単な方法は、読みやすいように手動でラベルを付けた文章のデータセットを使用することです。ただし、このようなデータセットを構築するには、非常に時間がかかるようです。

読みやすさのレベルが一般的に知られているソースを使用することで、この問題を回避できます。たとえば、簡単な英語のウィキペディアの文は、ウィキペディアの文よりも読みやすくする必要があります。一般的な可読性レベルの他の情報源は、ウォールストリートジャーナルや Web フォーラムです。読みやすさの値を調整して調整するために、これらの文に手動でラベルを付けます。

この手法を使用すると、ラベルの精度とラベルの量をトレードオフできます。機械学習は、ホワイトノイズや悪意のあるエラーが存在する場合でも実行できることが証明されているため、通常、このようなトレードオフは有益です。

machine-learning - 最新の文章可読性アルゴリズム

1 に答える 1

Related

Reference