0

テキストから機能を生成する必要があります。以下で使用しているスクリプトはオンラインで入手できますが、実際にはPythonをまったく知らないため、実行方法がわかりません。(train.txt) というテキスト ファイルには、次の内容が含まれています。

He PRP B-NP
reckons VBZ B-VP
the DT B-NP
current JJ I-NP
account NN I-NP
deficit NN I-NP
will MD B-VP
narrow VB I-VP
to TO B-PP
only RB B-NP
# # I-NP
1.8 CD I-NP
billion CD I-NP
in IN B-PP
September NNP B-NP
. . O

上記のテキストを次のような機能に変換するPythonスクリプトがあります。

B-NP    w[0]=He w[1]=reckons    w[2]=the        w[0]|w[1]=He|reckons    pos[0]=P
RP      pos[1]=VBZ      pos[2]=DT       pos[0]|pos[1]=PRP|VBZ   pos[1]|pos[2]=VB
Z|DT    pos[0]|pos[1]|pos[2]=PRP|VBZ|DT __BOS__
...

Pythonスクリプトは

# Separator of field values.
separator = ' '

# Field names of the input data.
fields = 'w pos y'

# Attribute templates.
templates = (
    (('w', -2), ),
    (('w', -1), ),
    (('w',  0), ),
    (('w',  1), ),
    (('w',  2), ),
    (('w', -1), ('w',  0)),
    (('w',  0), ('w',  1)),
    (('pos', -2), ),
    (('pos', -1), ),
    (('pos',  0), ),
    (('pos',  1), ),
    (('pos',  2), ),
    (('pos', -2), ('pos', -1)),
    (('pos', -1), ('pos',  0)),
    (('pos',  0), ('pos',  1)),
    (('pos',  1), ('pos',  2)),
    (('pos', -2), ('pos', -1), ('pos',  0)),
    (('pos', -1), ('pos',  0), ('pos',  1)),
    (('pos',  0), ('pos',  1), ('pos',  2)),
    )


import crfutils

def feature_extractor(X):
    # Apply attribute templates to obtain features (in fact, attributes)
    crfutils.apply_templates(X, templates)
    if X:
    # Append BOS and EOS features manually
        X[0]['F'].append('__BOS__')     # BOS feature
        X[-1]['F'].append('__EOS__')    # EOS feature

if __name__ == '__main__':
    crfutils.main(feature_extractor, fields=fields, sep=separator)

script.py と crfutils.py の両方が同じフォルダーに存在します。次のように、Windows 7 の cmd から上記のスクリプトを実行します。

C:\>Python script.py train.txt > train.result.txt

私はtrain.result.txtというタイトルの空のファイルを持っています。これは、私がPythonを初めて使用するためです(実際には学習を開始したばかりです)。何が問題なのかわかりませんか?引数を間違った順序で提供していますか? train.txt ファイルの形式が間違っていませんか?

4

1 に答える 1

1

コマンドライン引数としてではなく、stdin で train.txt を渡す必要があります。

C:\>Python script.py < train.txt > train.result.txt
于 2013-05-07T22:03:22.593 に答える