0

SVMLight を使用して分類器を構築し、名詞句 (NP) がアナフォリックかどうかを検出しようとしています。私は自分の機能を持っていますが、入力ファイルの形式を理解することに行き詰まっています。すべてのテキストをこの形式に変換するか、正のインスタンスと負のインスタンスを表す NP のみを配置する必要があります。ファイルをこの形式に変換できるソフトウェアはありますか?

<line> .=. <target> <feature>:<value> <feature>:<value> ... <feature>:<value> # <info> 
<target> .=. +1 | -1 | 0 | <float>  //for positive instance should I put +1
<feature> .=. <integer> | "qid" //should I do this line for all my feature
<value> .=. <float>
<info> .=. <string>  //Should this contain the NP

また、モデルファイルの場合、このファイルには正確に何を含める必要がありますか?

どうぞよろしくお願いいたします。

4

1 に答える 1

0

SVMlight の使用に関する Cornell の公式ドキュメントを引用すると、入力形式の例を次に示します。

-1 1:0.43 3:0.12 9284:0.2

私が理解している限りでは、これは、「機能」(あなたの場合は NP と言う) を含むドキュメントでは、上記の行は、feature1 の重みが 0.43、3 番目の機能の重みが 0.12、9284 番目の機能の負のケースを表していることを意味します。 0.2 の値を持ち、他のすべての機能の値は 0 です。

この種のフォーマットを生成するためのソフトウェア、ソース コード、またはライブラリについて - これは私が探しているものでもあるため、お答えできません。しかし、フォーマットの説明について明確に理解していただければ幸いです。

于 2016-07-20T12:16:16.380 に答える