テキストに関する豊富な情報を測定する指標はありますか?
テキスト内に固有の情報セグメントを確実に表示できるものなら何でも考えています。度数分布または一意の単語を使用した単純なメトリックは問題ありませんが、文に一意の情報を表示することはできません。
コーディング方法を使用すると、各文/単語、またはテキスト内の一意の情報としてカウントされるものを手動でコーディングする必要がありますが、これには時間がかかる場合があります。ですから、代わりにNLPを使用できるのではないかと思います。
アップデート
例として:
Navtilos、1928年の噴火で作成されたサントリーニ火山の小さな火山小島。
コーディング分析を使用する場合、4つの固有の情報ポイントを数えることができます。Navtilosとは何ですか、どこにあり、どのように作成され、いつ作成されたかです。
明らかに、人間はコンピューターとは異なるテキストを解釈します。文章や文章の中の固有の情報を特定できる手段があるのではないかと思います。それは私のものと同じ結果を生み出す必要はありませんが、異なる文にわたって信頼できます。
度数分布は効果的に機能する可能性がありますが、これには他の指標があるのではないかと思います。