6

そこで私は自然言語処理プロジェクトに取り組んでおり、さまざまなスタイルの文章を分類する必要があります。テキストからセマンティックな特徴が既に抽出されていると仮定すると、Java で Weka を使用して、他の異なるテキストを分類するために使用できるこれらの特徴を使用して SVM 分類器をトレーニングする予定です。

私が問題を抱えている部分は、SVM をトレーニングするには、特徴を特徴ベクトルに変換する必要があることです。語彙の豊富さ、n-gram、句読点、段落数、段落の長さなどの機能をベクトルの数値として表現する方法がわかりません。誰かが正しい方向を指し示すことができれば、それは大歓迎です.

4

1 に答える 1