毎日何千もの電話が音声からテキストに変換されています。以下の2つのオプションを使用してコロケーションデータを生成してみました
オプション1
corpus.collocations(200,2)
オプション # 2
bigram = nltk.collocations.BigramAssocMeasures()
finder = BigramCollocationFinder.from_words(corpus)
finder.apply_freq_filter(5)
my_bigrams = finder.nbest(bigram.pmi,200)
オプション#1を使用すると、良いデータが得られたようですが、用語はあまり意味がないようです。たとえば、「おはよう」、「こんにちは」、「アメリカンエクスプレス」などの用語が得られます...これらは重要な用語ですしかし、電話ではあまりにも一般的です。
オプション#2はより良いデータを取得しているようです..例..それは私に車のメーカーとモデル、都市の名前..などを与えます...
誰かがすでにこれらのオプションの両方を使用しており、どちらかのルートに進むことを決定しているのではないかと思っていました。
オプション 1 からの良いデータがいくつか見られます...そのため、両方のオプションを使用してデータを生成することを考えています..
ご意見はありますか?
*私の質問をもう少し編集 これまで見てきたことに基づいて、ほとんどの場合、オプション 2 からほとんどの結果を取得し、オプション 1 の結果とマージします。 2 つの働きの違いに光を当てます。