Python で NLP プロジェクトのテキスト コーパスを構築したいと考えています。LSHTC4 Kaggle チャレンジでこのテキスト形式を見たことがあります。
5 0:10 8:1 18:2 54:1 442:2 3784:1 5640:1 43501:1
最初の番号はラベルに対応します。
「:」で区切られた数字の各セットは、ベクトルの (feature,value) ペアに対応します。最初の数字は機能の ID で、2 番目の数字はその頻度です (たとえば、ID 18 の機能はインスタンスに 2 回表示されます)。 )。
これがテキスト データを数値ベクトルに前処理する一般的な方法かどうかはわかりません。チャレンジに前処理手順が見つかりません。データは既に前処理されています。