次のようにフォーマットされたコーパスがあります。
sentence in english \t sentence in french \t score
sentence in english \t sentence in french \t score
各文はトークン化されます (空白で区切られます)。
次に、NLTK を使用してこの文を読み込む必要があります。どうやってやるの ?CorpusReader のどのメソッドを使用できますか?
この例では、NLTK が提供する comtrans コーパスを読み込むことができます。
from nltk.corpus.util import LazyCorpusLoader
from nltk.corpus.reader import AlignedCorpusReader
comtrans = LazyCorpusLoader(
'comtrans', AlignedCorpusReader, r'(?!\.).*\.txt',
encoding='iso-8859-1')
fe=comtrans.aligned_sents('alignment-en-fr.txt')[0]
print fe
実際、同じことをする必要がありますが、自分で作成したファイルを使用します。
最後のステップでは、英文の各単語を見出し語化する必要があります。