私は、世界中で起こっている特定の危機や悲劇に関連するニュース記事を見つけるために、継続的に学習することに重点を置いた Web クローラーに取り組んでいます。私は現在、クロールが継続するにつれてデータモデルが一定に成長することを考慮して、データモデルをできるだけ無駄のない効率的なものにすることに取り組んでいます.
データモデルをリストに保存しています(クロールされているページとの TFIDF 比較を行うため) 。リストのサイズを小さくしたいのですが、リスト内の各アイテムの相対カウントを失わないようにしたいと考えています。
これは、クロールされた 2 つの Web ページのサンプル モデルです。
[[u'remark', u'special', u'agent', u'richard', u'deslauri', u'press', u'investig', u'crime', u'terror', u'crime', u'inform', u'servic', u'inform', u'laboratori', u'servic', u'want', u'want', u'want', u'terror', u'crime', u'want', u'news', u'news', u'press', u'news', u'servic', u'crime', u'inform', u'servic', u'laboratori', u'servic', u'servic', u'crime', u'crime', u'crime', u'terror', u'boston', u'press', u'remark', u'special', u'agent', u'richard', u'deslauri', u'press', u'investig', u'remark', u'special', u'agent', u'richard', u'deslauri', u'press', u'investig', u'boston', u'special', u'agent', u'remark', u'richard', u'deslauri', u'boston', u'investig', u'time', u'time', u'investig', u'boston', u'terror', u'law', u'enforc', u'boston', u'polic', u'polic', u'alreadi', u'alreadi', u'law', u'enforc', u'around', u'evid', u'boston', u'polic', u'evid', u'laboratori', u'evid', u'laboratori', u'may', u'alreadi', u'laboratori', u'investig', u'boston', u'polic', u'law', u'enforc', u'investig', u'around', u'alreadi', u'around', u'investig', u'law', u'enforc', u'evid', u'may', u'time', u'may', u'may', u'investig', u'may', u'around', u'time', u'investig', u'investig', u'boston', u'boston', u'news', u'press', u'boston', u'want', u'boston', u'want', u'news', u'servic', u'inform'], [u'2011', u'request', u'inform', u'tamerlan', u'tsarnaev', u'foreign', u'govern', u'crime', u'crime', u'inform', u'servic', u'inform', u'servic', u'nation', u'want', u'ten', u'want', u'want', u'crime', u'want', u'news', u'news', u'press', u'releas', u'news', u'stori', u'servic', u'crime', u'inform', u'servic', u'servic', u'servic', u'crime', u'crime', u'crime', u'news', u'press', u'press', u'releas', u'2011', u'request', u'inform', u'tamerlan', u'tsarnaev', u'foreign', u'govern', u'2011', u'request', u'inform', u'tamerlan', u'tsarnaev', u'foreign', u'govern', u'2013', u'nation', u'press', u'tamerlan', u'tsarnaev', u'dzhokhar', u'tsarnaev', u'tamerlan', u'tsarnaev', u'dzhokhar', u'tsarnaev', u'dzhokhar', u'tsarnaev', u'tamerlan', u'tsarnaev', u'dzhokhar', u'tsarnaev', u'2011', u'foreign', u'govern', u'inform', u'tamerlan', u'tsarnaev', u'inform', u'2011', u'govern', u'inform', u'tamerlan', u'tsarnaev', u'foreign', u'foreign', u'govern', u'2011', u'inform', u'foreign', u'govern', u'nation', u'press', u'releas', u'crime', u'releas', u'ten', u'news', u'stori', u'2013', u'ten', u'news', u'stori', u'2013', u'ten', u'news', u'stori', u'2013', u'2011', u'request', u'inform', u'tamerlan', u'tsarnaev', u'foreign', u'govern', u'nation', u'press', u'releas', u'want', u'news', u'servic', u'inform', u'govern']]
単語のリストを維持し、カウントをリスト自体に埋め込まないようにしたい。私はリストから行きたいと思います:
[ボストン、ボストン、ボストン、爆撃、爆撃、ツァルナエフ、ツァルナエフ、時間] から [ボストン、ボストン、爆撃、ツァルナエフ]
基本的に、リスト [a,a,a,b,b,c] がある場合、[a,a,b] に減らしたいと思います。
編集:明確でなくて申し訳ありませんが、もう一度試します。セットいらない。重み付けされたリストであるため、出現回数は非常に重要です。そのため、「Boston」は「time」または他の同様の用語よりも多く表示される必要があります。私が達成しようとしているのは、モデルから重要でない用語を削除しながら、データ モデルを最小限に抑えることです。したがって、上記の例では、モデルに多くの「脂肪」を追加するため、意図的に C を省略しました。A は B より 1 回多く、C より 2 回多く出現するという相対性を維持したいのですが、C は元のモデルでは 1 回しか出現しないため、リーンモデルから削除されています。