特定のトピックの 15000 以上のテキスト ドキュメントがあります。前者に基づいて言語モデルを構築したいと思います。これにより、このモデルにさまざまなトピックの新しいランダム テキスト ドキュメントを提示でき、新しいドキュメントが同じトピックのものであるかどうかをアルゴリズムが判断できるようになります。
などを試してみましたがsklearn.naive_bayes.MultinomialNB
、sklearn.svm.classes.LinearSVC
次の問題があります。
これらのアルゴリズムには、複数のラベルまたはカテゴリを持つトレーニング データが必要であり、特定のトピックをカバーする Web ページしかありません。他のドキュメントにはラベルが付けられておらず、さまざまなトピックが含まれています。
ラベルが 1 つしかないモデルをトレーニングする方法、または一般的な進め方についてのガイダンスをいただければ幸いです。私がこれまでに持っているものは次のとおりです。
c = MultinomialNB()
c.fit(X_train, y_train)
c.predict(X_test)
どうもありがとうございました。