ですから、トーマスが言ったことに少し付け加えます。彼の言うとおり、すべてはツイートに関連付けられたラベルがあるかどうかによって異なります。データにラベルが付けられている場合、これはテキスト分類の問題になります。詳細については、これを参照してください。
代わりに、一連のラベル付けされていない観察結果をクラスター化またはグループ化することを検討している場合は、Thomas が言ったように、 LDAを作業に組み込むことが最善の策です。詳細については、後者のドキュメントを参照してください。ただし、基本的に LDA モデルを実行すると、ツイートごとに、各コンポーネントがトピックに関連付けられているベクトルを提供DistributedLDAModel
するメソッドを持つ型のオブジェクトが取得されます。 topicDistributions
component エントリは、ツイートがそのトピックに属する確率を示します。各ツイートに最も確率の高いトピックを割り当てることでクラスター化できます。
サイズ MxN の行列にもアクセスできます。ここで、M は語彙の単語数、N はデータ内で発見したいトピックまたはクラスターの数です。Topics Matrix
これの ij 番目のエントリは、ドキュメントがトピック j に属している場合に、単語 i がドキュメントに出現する確率として大まかに解釈できます。クラスタリングに使用できるもう 1 つのルールは、ツイートに関連付けられた各単語ベクトルをカウントのベクトルとして扱うことです。次に、単語行列 (ツイートを行、単語を列) の積の ij エントリを解釈できます。Topics Matrix
ツイート i がトピック j に属する確率として LDA によって返されます (これは特定の仮定の下で行われます。詳細が必要な場合はお気軽にお問い合わせください)。ここでも、結果の行列の行 i の最大の数値に関連付けられたトピックにつぶやき i を割り当てます。トピックの発見に元の一連のツイートを使用した後は、このクラスタリング ルールを使用して、受信した観測にトピックを割り当てることもできます。
これで、データ処理のために、テキスト分類リファレンスを引き続き使用して、DataSource
およびPreparator
コンポーネントを介してツイートを単語数ベクトルに変換できます。データのインポートに関しては、つぶやきがファイルにローカルに保存されている場合は、PredictionIO の Python SDK を使用してデータをインポートできます。分類基準にも例が示されています。
不明な点があれば遠慮なく質問してください。頑張ってください!