トークン化する必要がある複数のテキスト ファイル、POS および NER があります。私はC&Cタガーを使用しており、そのチュートリアルを実行しましたが、1 つずつではなく複数のファイルにタグを付ける方法があるかどうか疑問に思っています。
現時点では、ファイルをトークン化しています:
bin/tokkie --input working/tutorial/example.txt--quotes delete --output working/tutorial/example.tok
次のように、品詞のタグ付けを行います。
bin/pos --input working/tutorial/example.tok --model models/pos --output working/tutorial/example.pos
最後に固有表現認識:
bin/ner --input working/tutorial/example.pos --model models/ner --output working/tutorial/example.ner
これを行うためにループを作成し、ファイル名を入力と同じに保ちますが、拡張子はタグ付けを表す方法がわかりません。ディレクトリを開くために bash スクリプトまたはおそらく Perl を考えていましたが、スクリプトが理解するために C&C コマンドを入力する方法がわかりません。
現時点では手動で行っていますが、控えめに言ってもかなり時間がかかります!