一連の記事で使用されているすべての単語のマスター リストがあり、各記事内のマスター リスト内の各単語の出現回数を数えようとしています。次に、データに対していくつかの関連付けルールを作成してみます。たとえば、私のデータは次のようになります。
master_wordlist = ['dog', 'cat', 'hat', 'bat', 'big']
article_a = ['dog', 'cat', 'dog','big']
article_b = ['dog', 'hat', 'big', 'big', 'big']
データを次の形式にする必要があります。
Article dog cat hat bat big
article_a 2 1 0 0 1
article_b 1 0 1 0 3
私はこの変換を行うのに苦労しています.nltkで遊んでいますが、存在しない単語が含まれているカウントを取得する方法がわかりません. どんな助けでも大歓迎です!