この論文には、ノイズの多いチャネルでのスペル ミスの混同マトリックスが含まれています。条件付きプロパティに基づいてエラーを修正する方法について説明します。
条件付き確率の計算は、2 ページの左の列にあります。脚注 4、2 ページ、左の列で、著者は次のように述べています。それらをどのように複製できるかわかりません!
それらを複製する方法は?元のコーパスは必要ですか?それとも、著者は、論文自体の資料から再計算できることを意味していたのでしょうか?
この論文には、ノイズの多いチャネルでのスペル ミスの混同マトリックスが含まれています。条件付きプロパティに基づいてエラーを修正する方法について説明します。
条件付き確率の計算は、2 ページの左の列にあります。脚注 4、2 ページ、左の列で、著者は次のように述べています。それらをどのように複製できるかわかりません!
それらを複製する方法は?元のコーパスは必要ですか?それとも、著者は、論文自体の資料から再計算できることを意味していたのでしょうか?
論文を見て、コーパスを使用してそれらを計算する必要があるだけです。コーパスは、同じものか、アプリケーションに関連するものです。
chars
行列を複製する際に、2 つの異なる行列 (ベクトルと n 行 n 列の行列) が暗黙的に定義されていることに注意してください。各 characterx
について、ベクトルにはその文字がコーパスに出現しchars
た回数が含まれます。x
文字シーケンスごとxy
に、行列chars
にはそのシーケンスがコーパスで発生した回数が含まれます。
chars[x]
x
ベクトル内のルックアップを表します。マトリックス内chars[x,y]
のシーケンスのルックアップを表します。= の各値の合計にxy
注意してください。chars[x]
chars[x,y]
y
これらの数はすべて、1988 年の AP Newswire コーパス ( LDC から入手可能) に基づいていることに注意してください。正確なコーパスを使用できない場合、同じジャンルの別のテキスト (つまり、別のニュースワイヤー コーパス) を使用して、元のデータに適合するようにカウントをスケーリングすることは不合理ではないと思います。つまり、特定の文字の頻度は、テキストが十分に類似している場合、テキストごとに大きく異なるべきではないため、ニュースワイヤーの 2200 万語のコーパスがあれば、そのテキストの文字数を数えて、次にそれらを 2 倍にして、元の数に近づけます。