python - NLTK で対訳コーパスを読み込み、英文を見出し語化する

翻译自：https://stackoverflow.com/questions/27361627 2014-12-08T15:49:05.187

841 次

次のようにフォーマットされたコーパスがあります。

sentence in english \t sentence in french \t score
sentence in english \t sentence in french \t score

各文はトークン化されます (空白で区切られます)。

次に、NLTK を使用してこの文を読み込む必要があります。どうやってやるの？CorpusReader のどのメソッドを使用できますか?

この例では、NLTK が提供する comtrans コーパスを読み込むことができます。

from nltk.corpus.util import LazyCorpusLoader
from nltk.corpus.reader import AlignedCorpusReader

comtrans = LazyCorpusLoader(
    'comtrans', AlignedCorpusReader, r'(?!\.).*\.txt',
     encoding='iso-8859-1')

fe=comtrans.aligned_sents('alignment-en-fr.txt')[0]
print fe

実際、同じことをする必要がありますが、自分で作成したファイルを使用します。

最後のステップでは、英文の各単語を見出し語化する必要があります。

python - NLTK で対訳コーパスを読み込み、英文を見出し語化する

0 に答える 0

Related

Reference