私は、アラビア語とペルシア語で整列された約 100,000 の段落を含む対訳コーパスを持っています。
私のコーパスは、パラグラフ同士が完全に翻訳されていないノイズの多いコーパスです (つまり、アラビア語のパラグラフの一部がペルシア語に翻訳されておらず、句読点も一致していません)。
段落を文に分けるために句読点を使ったのですが、文数が合っていません。
その後、Microsoft Aligner を使用して文章を整列させましたが、結果は本当に間違っています。
コーパスの文をどのように分割して整列させるのですか?