私は現在、ウィキペディアのテキストのコーパスからの関係抽出に焦点を当てたプロジェクトに取り組んでおり、SVM を使用してこれらの関係を抽出する予定です。これをモデル化するために、Word 機能、POS タグ機能、エンティティ機能、メンション機能などを使用する予定です( https://gate.ac.uk/sale/eswc06/eswc06-relation.pdf ( 6ページ以降)
これで、特徴抽出用のパイプラインをセットアップし、コーパスに注釈を付けました。プロジェクトの目的で SVM-Light のようなパッケージを使用したいと考えています。SVM-Light パッケージの入力ファイル形式によると、これは必要な形式 - .= です。: : ... : #
例 (SVM-Light Web ページから) -
分類モードでは、ターゲット値は例のクラスを示します。+1 はターゲット値として正の例を示し、-1 は負の例をそれぞれ示します。したがって、たとえば、次の行
-1 1:0.43 3:0.12 9284:0.2 # abcdef
特徴番号 1 の値が 0.43、特徴番号 3 の値が 0.12、特徴番号 9284 の値が 0.2、その他すべての特徴の値が 0 である負の例を指定します。さらに、文字列 abcdef がベクトルと共に格納されます。これは、ユーザー定義のカーネルに追加情報を提供する方法として機能します。
ここで、単語、POS タグ、およびエンティティ タイプとサブタイプを値に含む、私が使用している機能を、SVM-Light パッケージで受け入れられる機能ベクトルにモデル化する方法を知りたいと思います。各機能には、関連付けられた実数値があります。それ。選択した機能からこれらの実際の値へのマッピングはどのように行われますか?
以前に同様の問題に取り組んだことがある人が私を正しい方向に導くことができれば、それは大きな助けになるでしょう.
ありがとう。