0

テキストに関する豊富な情報を測定する指標はありますか?

テキスト内に固有の情報セグメントを確実に表示できるものなら何でも考えています。度数分布または一意の単語を使用した単純なメトリックは問題ありませんが、文に一意の情報を表示することはできません。

コーディング方法を使用すると、各文/単語、またはテキスト内の一意の情報としてカウントされるものを手動でコーディングする必要がありますが、これには時間がかかる場合があります。ですから、代わりにNLPを使用できるのではないかと思います。

アップデート

例として:

Navtilos、1928年の噴火で作成されたサントリーニ火山の小さな火山小島。

コーディング分析を使用する場合、4つの固有の情報ポイントを数えることができます。Navtilosとは何ですか、どこにあり、どのように作成され、いつ作成されたかです。

明らかに、人間はコンピューターとは異なるテキストを解釈します。文章や文章の中の固有の情報を特定できる手段があるのではないかと思います。それは私のものと同じ結果を生み出す必要はありませんが、異なる文にわたって信頼できます。

度数分布は効果的に機能する可能性がありますが、これには他の指標があるのではないかと思います。

4

1 に答える 1

3

What you seem to be looking for is a keyword/term extractor (for a list of keyword extractors see, for example, this, "External Links"). An extractor will extract phrases consisting of one or more words that capture some notions mentioned in the text, but without classifying them into classes (as named entity recognisers would do).

See, for example, this demo. From the sentence in your example, it extracts:

small volcanic islet
Navtilos
Santorini

If you have lots of documents, you can then use the frequency distribution of each keyword across documents to measure how specific it is to each document (assuming that uniqueness of a keyword to a document reflects how well it describes the contents of the document). For this, you can use a measure like tf-idf.

于 2013-02-25T20:43:07.490 に答える