タグ付けして保存したい平文のコーパスがあるので、それをさらに使用できます。これを行う最善の方法は何ですか?
タガーは既に作成していますが、乱雑ではないコーパスを変更する方法がわかりません。
タグ付けして保存したい平文のコーパスがあるので、それをさらに使用できます。これを行う最善の方法は何ですか?
タガーは既に作成していますが、乱雑ではないコーパスを変更する方法がわかりません。
出力例については、brown などの他のタグ付きコーパスを参照してください。これにより、タグ付きコーパスがどのように見えるべきかがわかります。次に、コーパスを ( を使用してPlaintextCorpusReader
) ロードし、文を反復処理して、各文にタグを付けます。次に、タグ付けされたセンテンスから文字列を作成して、タグ付けされた各センテンスをファイルに書き込みます' '.join([tuple2str(t) for t in tagged_sent])
( を実行した後from nltk.tag.util import tuple2str
)。コードが「ごちゃごちゃ」していても、正しく機能する限りは問題ありません。ここでは洗練されたアルゴリズムを探しているのではなく、非常に特殊なスクリプトを実行してカスタム コーパスを作成しています。
単純なユニグラムのタグ付けを行っていますか、それとも実際にテキストを解析していますか? NLTK は、すべてのトークンの出力が (トークン、PoS) になるように解析/タグ付けすると思います。タプルの配列は、コーパスを格納するために受け入れられませんか? なぜこれが面倒だと思うのですか?