テキストを分類するためのロジスティック回帰手法を実践しようとしています.apxn 行列の形式でデータセットを構築したいと考えています.演劇は p 行、一意の単語は n 列です. 作業するテキストが既にあります。その中の単語を数えるだけです。
どの単語がどの芝居に登場するかを追跡することは重要です。そのため、特定の芝居について、固有の単語を集計する Python 辞書を作成することができました。私がどうすればよいかわからないのは、これらの口述を組み合わせることです。
romeo = {[alas,2],[julliet,35]}
caesar = {[et,1],[tu,3],[cassius,12]}
マージしてマトリックスを生成できます
alas julliet et tu cassius
romeo 2 35 0 0 0
caesar 0 0 1 3 12
わかりやすくするために、各劇が固有の言葉だけで構成されている例を作成しましたが、実際にはこれはまったく当てはまりません。
これらの辞書からこのマトリックスを作成するにはどうすればよいでしょうか? 別の場所から始めた方が簡単ですか?