python - 通話からのコロケーションデータ

Question

毎日何千もの電話が音声からテキストに変換されています。以下の2つのオプションを使用してコロケーションデータを生成してみました

オプション1

corpus.collocations(200,2)

オプション # 2

bigram = nltk.collocations.BigramAssocMeasures()
finder = BigramCollocationFinder.from_words(corpus)
finder.apply_freq_filter(5)
my_bigrams = finder.nbest(bigram.pmi,200)

オプション＃1を使用すると、良いデータが得られたようですが、用語はあまり意味がないようです。たとえば、「おはよう」、「こんにちは」、「アメリカンエクスプレス」などの用語が得られます...これらは重要な用語ですしかし、電話ではあまりにも一般的です。

オプション＃2はより良いデータを取得しているようです..例..それは私に車のメーカーとモデル、都市の名前..などを与えます...

誰かがすでにこれらのオプションの両方を使用しており、どちらかのルートに進むことを決定しているのではないかと思っていました。

オプション 1 からの良いデータがいくつか見られます...そのため、両方のオプションを使用してデータを生成することを考えています..

ご意見はありますか？

*私の質問をもう少し編集これまで見てきたことに基づいて、ほとんどの場合、オプション 2 からほとんどの結果を取得し、オプション 1 の結果とマージします。 2 つの働きの違いに光を当てます。

python - 通話からのコロケーション データ

0 に答える 0

Related

Reference

python - 通話からのコロケーションデータ