3

トークン化する必要がある複数のテキスト ファイル、POS および NER があります。私はC&Cタガーを使用しており、そのチュートリアルを実行しましたが、1 つずつではなく複数のファイルにタグを付ける方法があるかどうか疑問に思っています。

現時点では、ファイルをトークン化しています:

bin/tokkie --input working/tutorial/example.txt--quotes delete --output working/tutorial/example.tok

次のように、品詞のタグ付けを行います。

bin/pos --input working/tutorial/example.tok --model models/pos --output working/tutorial/example.pos

最後に固有表現認識:

bin/ner --input working/tutorial/example.pos --model models/ner --output working/tutorial/example.ner

これを行うためにループを作成し、ファイル名を入力と同じに保ちますが、拡張子はタグ付けを表す方法がわかりません。ディレクトリを開くために bash スクリプトまたはおそらく Perl を考えていましたが、スクリプトが理解するために C&C コマンドを入力する方法がわかりません。

現時点では手動で行っていますが、控えめに言ってもかなり時間がかかります!

4

2 に答える 2

1

バッシュの場合:

#!/bin/bash
dir='working/tutorial'
for file in "$dir"/*.txt
do
    noext=${file/%.txt}

    bin/tokkie --input "$file" --quotes delete --output "$noext.tok"

    bin/pos --input "$noext.tok" --model models/pos --output "$noext.pos"

    bin/ner --input "$noext.pos" --model models/ner --output "$noext.ner"

done
于 2011-03-01T16:41:41.683 に答える