-2

広告の投稿に基づいて価格を予測しようとする Python コードを理解しようとしています。

テキスト ベクトライザーを適合させる前hstack((des, titles))に、広告の説明desと広告のタイトルに対して関数が実行されますtitles

質問: を行う理由は何hstackですか? desmergedを印刷するときの違いはわかりません。別々にmerged渡すのではなく、トレーニングデータとして使用されているようです。これはどのように作動しますか?destitles

ベクトル化機能

def fit(des, titles, sal, clf, alpha):
    tRidge = time()
    vect = TfidfVectorizer(min_df=1,ngram_range=(1,3),max_features=24000000)
    vect2 = TfidfVectorizer(min_df=1,ngram_range=(1,3),max_features=24000000)
    des = vect.fit_transform(des)
    titles = vect2.fit_transform(titles)
    merged = hstack((des, titles))
    print des, "\n\n\n\n"
    print titles, "\n\n\n\n"
    print merged

    rr = linear_model.Ridge(alpha= alpha)
    rr.fit(merged,sals)

    return vect, vect2, rr 

結果

(0, 2991)   0.0923069427531
(0, 2989)   0.156938669001
(0, 2988)   0.183108029528
(0, 2984)   0.183108029528
(0, 2983)   0.0923069427531
(0, 2982)   0.0923069427531
(0, 2981)   0.0923069427531
(0, 2976)   0.0923069427531
(0, 2974)   0.0784693345005
(0, 2973)   0.1373027904
(0, 2968)   0.0923069427531
(0, 2967)   0.0923069427531
(0, 2966)   0.183108029528
(0, 2859)   0.0610360098426
(0, 2858)   0.0610360098426
(0, 2855)   0.0548137869472
(0, 2811)   0.0923069427531
(0, 2810)   0.0610360098426
(0, 2807)   0.0548137869472
(0, 2671)   0.0923069427531
(0, 2670)   0.0923069427531
(0, 2663)   0.0784693345005
(0, 2662)   0.0784693345005
(0, 2659)   0.0819523573892
(0, 2642)   0.0923069427531
:   :
(9, 225)    0.0518713890037
(9, 208)    0.105028746631
(9, 155)    0.0518713890037
(9, 154)    0.0518713890037
(9, 153)    0.0518713890037
(9, 152)    0.0518713890037
(9, 151)    0.0518713890037
(9, 149)    0.0440954196221
(9, 140)    0.0835380774247
(9, 135)    0.0518713890037
(9, 134)    0.0518713890037
(9, 132)    0.0881908392442
(9, 131)    0.0771565630894
(9, 122)    0.0518713890037
(9, 121)    0.0518713890037
(9, 118)    0.0518713890037
(9, 117)    0.0518713890037
(9, 116)    0.0771565630894
(9, 25) 0.0518713890037
(9, 8)  0.0518713890037
(9, 7)  0.0440954196221
(9, 6)  0.0440954196221
(9, 5)  0.0518713890037
(9, 4)  0.0518713890037
(9, 3)  0.0518713890037 




(0, 69) 0.42208707303
(0, 68) 0.42208707303
(0, 27) 0.42208707303
(0, 26) 0.42208707303
(0, 24) 0.379058050386
(0, 0)  0.379058050386
(1, 62) 0.42435658025
(1, 61) 0.42435658025
(1, 60) 0.42435658025
(1, 28) 0.42435658025
(1, 23) 0.42435658025
(1, 22) 0.315606501824
(2, 59) 0.346009923908
(2, 58) 0.346009923908
(2, 44) 0.346009923908
(2, 43) 0.346009923908
(2, 42) 0.346009923908
(2, 7)  0.346009923908
(2, 6)  0.346009923908
(2, 5)  0.346009923908
(2, 0)  0.205467906151
(3, 70) 0.343926205461
(3, 69) 0.227413915309
(3, 68) 0.227413915309
(3, 41) 0.343926205461
:   :
(7, 16) 0.231189334057
(7, 12) 0.271958221129
(7, 11) 0.271958221129
(7, 10) 0.271958221129
(8, 76) 0.265672282889
(8, 75) 0.265672282889
(8, 74) 0.265672282889
(8, 73) 0.265672282889
(8, 72) 0.265672282889
(8, 53) 0.265672282889
(8, 52) 0.22584571227
(8, 51) 0.22584571227
(8, 35) 0.265672282889
(8, 18) 0.265672282889
(8, 17) 0.265672282889
(8, 16) 0.22584571227
(8, 15) 0.265672282889
(8, 14) 0.265672282889
(8, 13) 0.265672282889
(9, 65) 0.435367791014
(9, 64) 0.435367791014
(9, 63) 0.370102397554
(9, 22) 0.323795863959
(9, 9)  0.435367791014
(9, 8)  0.435367791014 




(0, 2991)   0.0923069427531
(0, 2989)   0.156938669001
(0, 2988)   0.183108029528
(0, 2984)   0.183108029528
(0, 2983)   0.0923069427531
(0, 2982)   0.0923069427531
(0, 2981)   0.0923069427531
(0, 2976)   0.0923069427531
(0, 2974)   0.0784693345005
(0, 2973)   0.1373027904
(0, 2968)   0.0923069427531
(0, 2967)   0.0923069427531
(0, 2966)   0.183108029528
(0, 2859)   0.0610360098426
(0, 2858)   0.0610360098426
(0, 2855)   0.0548137869472
(0, 2811)   0.0923069427531
(0, 2810)   0.0610360098426
(0, 2807)   0.0548137869472
(0, 2671)   0.0923069427531
(0, 2670)   0.0923069427531
(0, 2663)   0.0784693345005
(0, 2662)   0.0784693345005
(0, 2659)   0.0819523573892
(0, 2642)   0.0923069427531
:   :
(7, 3669)   0.231189334057
(7, 3665)   0.271958221129
(7, 3664)   0.271958221129
(7, 3663)   0.271958221129
(8, 3729)   0.265672282889
(8, 3728)   0.265672282889
(8, 3727)   0.265672282889
(8, 3726)   0.265672282889
(8, 3725)   0.265672282889
(8, 3706)   0.265672282889
(8, 3705)   0.22584571227
(8, 3704)   0.22584571227
(8, 3688)   0.265672282889
(8, 3671)   0.265672282889
(8, 3670)   0.265672282889
(8, 3669)   0.22584571227
(8, 3668)   0.265672282889
(8, 3667)   0.265672282889
(8, 3666)   0.265672282889
(9, 3718)   0.435367791014
(9, 3717)   0.435367791014
(9, 3716)   0.370102397554
(9, 3675)   0.323795863959
(9, 3662)   0.435367791014
(9, 3661)   0.435367791014
4

2 に答える 2