4

テキスト分析プログラムでは、テキスト内の特定の単語の共起を分析したいと考えています。たとえば、"Barack" と "Obama" という単語が他の単語よりも一緒に表示されることが多い (つまり、正の相関関係がある) ことを確認したいと思います。

これはそれほど難しいことではないようです。しかし、正直なところ、私は 2 つの数値間の相関を計算する方法しか知りません。テキスト内の 2 つの単語間の相関関係は知りません。

  1. どうすればこの問題に最善のアプローチができますか?
  2. 単語間の相関関係を計算するにはどうすればよいですか?

たとえば、バラク・オバマはオバマ・バラクよりもはるかに可能性が高いため、条件付き確率を使用することを考えました。しかし、私が解決しようとしている問題は、はるかに基本的なものであり、単語の順序に依存しません。

4

4 に答える 4

3

Ngram Statistics Package (NSP)はまさにこのタスクに専念しています。彼らは、彼らが使用するアソシエーション メジャーを説明するオンライン ペーパーを持っています。私はこのパッケージを自分で使用したことがないので、その信頼性や要件についてコメントすることはできません。

于 2012-10-17T10:52:29.003 に答える
1

これが一般的にどのように行われるかはわかりませんが、単語の隣接関係を捉える相関関係の概念を定義する大まかな方法​​を 1 つ思いつくことができます。

テキストの長さが N で、配列であるとします。

text[0], text[1], ..., text[N-1]

次の単語がテキストに表示されているとします。

word[0], word[1], ..., word[k]

各単語 word[i] に対して、長さ N-1 のベクトルを定義します

X[i] = array(); // of  length N-1

ベクトルの i 番目のエントリは、単語が i 番目の単語または (i+1) 番目の単語の場合は 1 であり、それ以外の場合は 0 です。

// compute the vector X[i]
for (j = 0:N-2){
  if (text[j] == word[i] OR text[j+1] == word[i])
    X[i][j] = 1;
  else
    X[i][j] = 0;
}

次に、word[a] と word[b] の間の相関係数を、X[a] と X[b] の間の内積として計算できます (内積は、これらの単語が隣接する回数であることに注意してください)。長さ (長さは単語の出現回数の平方根で、おそらくその 2 倍です)。この量を COR(X[a],X[b]) と呼びます。明らかに COR(X[a],X[a]) = 1 であり、word[a]、word[b] がしばしば隣接している場合、COR(X[a],X[b]) はより大きくなります。

これは、「隣接」から他の近くの概念に一般化できます。たとえば、代わりに 3 単語 (または 4、5 など) ブロックを使用することを選択できます。ウェイトを追加することもできます。必要に応じて、さらに多くのことを行うこともできます。有用なものがあるとすれば、何が有用かを実験する必要があります。

于 2012-10-17T01:25:26.403 に答える
1

あなたの質問を解決する簡単な方法は、データを 2x2 マトリックスに整形することです

            obama | not obama
barack      A       B
not barack  C       D

マトリックス内のすべてのバイグラムにスコアを付けます。そうすれば、たとえば単純なカイ二乗を使用できます。

于 2012-10-16T15:24:17.883 に答える
0

この問題は、大きなテキストの本文にある2つの「トークン」のシーケンスであるバイグラムのように聞こえます。より一般的なn-gram問題への追加リンクがあるこのウィキペディアのエントリを参照してください。

完全な分析を行いたい場合は、ほとんどの場合、任意の単語のペアを取得して頻度分析を行います。たとえば、「バラク・オバマは民主党の大統領候補です」という文は8語であるため、8つの選択2=28の可能なペアがあります。

次に、「「オバマ」が「バラク」に続くペアはいくつあり、他の単語(「オバマ」ではない)が「バラク」に続くペアはいくつですか?この場合、7つのペアがあります。これには「バラク」が含まれますが、そのうちの1つだけが「オバマ」とペアになっています。

考えられるすべての単語ペアについて同じことを行い(たとえば、「「候補」は「」の後にいくつのペアが続くか」)、比較の基礎が得られます。

于 2012-10-17T20:13:35.817 に答える