python - Python - アプリオリアルゴリズムを実行するためのデータのクリーニング

翻译自：https://stackoverflow.com/questions/16511279 2013-05-12T19:36:27.133

943 次

一連の記事で使用されているすべての単語のマスターリストがあり、各記事内のマスターリスト内の各単語の出現回数を数えようとしています。次に、データに対していくつかの関連付けルールを作成してみます。たとえば、私のデータは次のようになります。

master_wordlist = ['dog', 'cat', 'hat', 'bat', 'big']
article_a = ['dog', 'cat', 'dog','big']
article_b = ['dog', 'hat', 'big', 'big', 'big']

データを次の形式にする必要があります。

Article        dog    cat    hat    bat    big
article_a      2      1      0      0      1
article_b      1      0      1      0      3

私はこの変換を行うのに苦労しています.nltkで遊んでいますが、存在しない単語が含まれているカウントを取得する方法がわかりません. どんな助けでも大歓迎です！

python - Python - アプリオリ アルゴリズムを実行するためのデータのクリーニング