0

わかりました、これは単なる奇抜です。これまでに問題を見たことがないため、最近のグラフラボの更新によって問題が発生した可能性があると思いますが、よくわかりません)。とにかく、これをチェックしてください:

import graphlab as gl

corpus = gl.SArray('path/to/corpus_data')
lda_model = gl.topic_model.create(dataset=corpus,num_topics=10,num_iterations=50,alpha=1.0,beta=0.1)
lda_model.get_topics(num_words=3).print_rows(30)

+-------+---------------+------------------+
| topic |      word     |      score       |
+-------+---------------+------------------+
|   0   |     Music     | 0.0195325651638  |
|   0   |      Love     | 0.0120906781994  |
|   0   |  Photography  | 0.00936914065591 |
|   1   |     Recipe    | 0.0205673829742  |
|   1   |      Food     | 0.0202932111556  |
|   1   |     Sugar     | 0.0162560126511  |
|   2   |    Business   | 0.0223993672813  |
|   2   |    Science    | 0.0164027313084  |
|   2   |   Education   | 0.0139221301443  |
|   3   |    Science    | 0.0134658216431  |
|   3   |   Video_game  | 0.0113924173881  |
|   3   |      NASA     | 0.0112188654905  |
|   4   | United_States | 0.0127908290673  |
|   4   |   Automobile  | 0.00888669047383 |
|   4   |   Australia   | 0.00854809547772 |
|   5   |    Disease    | 0.00704245203928 |
|   5   |     Earth     | 0.00693360028027 |
|   5   |    Species    | 0.00648700544757 |
|   6   |    Religion   | 0.0142311765509  |
|   6   |      God      | 0.0139990904439  |
|   6   |     Human     | 0.00765681454222 |
|   7   |     Google    | 0.0198547267697  |
|   7   |    Internet   | 0.0191105480317  |
|   7   |    Computer   | 0.0179914269911  |
|   8   |      Art      | 0.0378733245262  |
|   8   |     Design    | 0.0223646138082  |
|   8   |     Artist    | 0.0142755732766  |
|   9   |      Film     | 0.0205971724156  |
|   9   |     Earth     | 0.0125386246077  |
|   9   |   Television  | 0.0102082224947  |
+-------+---------------+------------------+

私のコーパスについて何も知らなくても、トピックごとの上位の用語が多かれ少なかれ関連している限り、これらのトピックは少なくともある程度理解できます。

しかし、単純にモデルを保存してリロードすると、トピックが完全に変わります (わかる限り、ナンセンスに):

lda_model.save('test')
lda_model = gl.load_model('test')
lda_model.get_topics(num_words=3).print_rows(30)

+-------+-----------------------+-------------------+
| topic |          word         |       score       |
+-------+-----------------------+-------------------+
|   0   |      Cleanliness      |  0.00468171463384 |
|   0   |      Chicken_soup     |  0.00326753275774 |
|   0   | The_Language_Instinct |  0.00314506174959 |
|   1   |      Equalization     |  0.0015724652078  |
|   1   |    Financial_crisis   |  0.00132675410371 |
|   1   |    Tulsa,_Oklahoma    |  0.00118899041288 |
|   2   |        Batoidea       |  0.00142300468887 |
|   2   |       Abbottabad      |  0.0013474225953  |
|   2   |   Migration_humaine   |  0.00124284781396 |
|   3   |     Gewürztraminer    |  0.00147470845039 |
|   3   |         Indore        |  0.00107223358321 |
|   3   |     White_wedding     |  0.00104791136102 |
|   4   |        Bregenz        |  0.00130871351963 |
|   4   |       Carl_Jung       | 0.000879345016186 |
|   4   |           ภ           | 0.000855001542873 |
|   5   |        18e_eeuw       | 0.000950866105797 |
|   5   |      Vesuvianite      | 0.000832367570269 |
|   5   |      Gary_Kirsten     | 0.000806410748201 |
|   6   |  Sunday_Bloody_Sunday | 0.000828552346797 |
|   6   |  Linear_cryptanalysis | 0.000681188343324 |
|   6   |     Clothing_sizes    |  0.00066708652481 |
|   7   |          Mile         | 0.000759081990574 |
|   7   |  Pinwheel_calculator  | 0.000721971708181 |
|   7   |       Third_Age       | 0.000623010955132 |
|   8   |   Tennessee_Williams  | 0.000597449568381 |
|   8   |         Levite        | 0.000551338743949 |
|   8   |   Time_Out_(company)  | 0.000536667117994 |
|   9   |     David_Deutsch     | 0.000543813843275 |
|   9   | Honing_(metalworking) |  0.00044496051774 |
|   9   |   Clearing_(finance)  | 0.000431699705779 |
+-------+-----------------------+-------------------+

ここで何が起こっている可能性がありますか?saveモデルをピクルするだけでいいので、どこで奇妙なことが起こっているのかわかりませんが、どういうわけか、トピックの分布が明らかではない方法で完全に変化しています. 2 つの異なるマシン (Linux と Mac) でこれを確認しました。同様の奇妙な結果が得られます。

編集

Graphlab を 1.7.1 から 1.6.1 にダウングレードすると、この問題は解決するようですが、実際の解決策ではありません。1.7.1 のリリース ノートには、何が起こったのかを説明する明確な記述が見当たりません。可能であれば、これを 1.7.1 で機能させたいと考えています...

4

1 に答える 1