1

現在、私はたくさんの.txtファイルを持っています。各 .t​​xt ファイル内で、各文は改行で区切られています。CWB で読み取れるように IMS CWB 形式に変更するにはどうすればよいですか? nltk形式にも。

誰かがそれを行うためのハウツーページに私を導くことができますか? またはそれを行うためのガイドページがありますか、マニュアルを読んでみましたが、よくわかりません。www.cwb.sourceforge.net/files/CWB_Encoding_Tutorial.pdf

データおよびレジストリ ディレクトリを作成してから cwb-encode コマンドを実行すると、すべて vrt ファイルに変換されるということですか? 一度に1つのファイルを変換しますか? ディレクトリ内の複数のファイルを実行するスクリプトを作成するにはどうすればよいですか?

4

1 に答える 1

2

NLTK で読み取り可能なコーパスから cwb の「垂直化された」フォーマットを生成するのは簡単です。

from nltk.corpus import brown

out = open('corpus.vrt','w')
for sentence in nltk.brown.sents():
     print >>out,'<s>'
     for word in sentence:
          print >>out,word
     print >>out,'</s>'
out.close()

そこから、CWB Web サイトの指示に従うことができます。

于 2011-03-23T20:47:04.220 に答える