SVMLight を使用して分類器を構築し、名詞句 (NP) がアナフォリックかどうかを検出しようとしています。私は自分の機能を持っていますが、入力ファイルの形式を理解することに行き詰まっています。すべてのテキストをこの形式に変換するか、正のインスタンスと負のインスタンスを表す NP のみを配置する必要があります。ファイルをこの形式に変換できるソフトウェアはありますか?
<line> .=. <target> <feature>:<value> <feature>:<value> ... <feature>:<value> # <info>
<target> .=. +1 | -1 | 0 | <float> //for positive instance should I put +1
<feature> .=. <integer> | "qid" //should I do this line for all my feature
<value> .=. <float>
<info> .=. <string> //Should this contain the NP
また、モデルファイルの場合、このファイルには正確に何を含める必要がありますか?
どうぞよろしくお願いいたします。