2

タグ付けして保存したい平文のコーパスがあるので、それをさらに使用できます。これを行う最善の方法は何ですか?

タガーは既に作成していますが、乱雑ではないコーパスを変更する方法がわかりません。

4

2 に答える 2

1

出力例については、brown などの他のタグ付きコーパスを参照してください。これにより、タグ付きコーパスがどのように見えるべきかがわかります。次に、コーパスを ( を使用してPlaintextCorpusReader) ロードし、文を反復処理して、各文にタグを付けます。次に、タグ付けされたセンテンスから文字列を作成して、タグ付けされた各センテンスをファイルに書き込みます' '.join([tuple2str(t) for t in tagged_sent])( を実行した後from nltk.tag.util import tuple2str)。コードが「ごちゃごちゃ」していても、正しく機能する限りは問題ありません。ここでは洗練されたアルゴリズムを探しているのではなく、非常に特殊なスクリプトを実行してカスタム コーパスを作成しています。

于 2011-07-22T18:49:19.393 に答える
0

単純なユニグラムのタグ付けを行っていますか、それとも実際にテキストを解析していますか? NLTK は、すべてのトークンの出力が (トークン、PoS) になるように解析/タグ付けすると思います。タプルの配列は、コーパスを格納するために受け入れられませんか? なぜこれが面倒だと思うのですか?

于 2011-07-22T04:23:36.800 に答える