0

中規模のWebサイトがローカルに保存されています(httrackを使用してサーバーからリッピングされています)。この特定のWebサイトのディレクトリ構造には、いくつかのフォルダ/サブフォルダと多数のhtmlファイルがあります。すべてのhtmlファイルにわたって単一の単語頻度カウンターテーブルを生成できるツール(実際には、スクリプト、c ++ / cコードなど)があるかどうかを知りたいです。ここでの秘訣は、実際の内容語のカウントにのみ関心があることです(つまり、HTMLコードではありませんが、その場合は後で簡単に削除できます)。どんな提案でも大歓迎です!

4

2 に答える 2

3

HTMLコードを取り除いたら、使用しますcollections.Counter

>>> sentence = "Hello world. How are you? Hello"
>>> counts = collections.Counter(sentence.split()) # note that this still counts punctuation. Thus, "Hello," and "Hello" are two different words

HTML を削除する方法がない場合は、lxmlを調べてください。

お役に立てれば

于 2012-10-04T23:31:52.680 に答える
2

複数のファイルをスキャンして HTML タグを取り除く、 http: //www.hermetic.ch/wfca/wfca.htm の Hermetic Word Frequency Counter の高度なバージョンを参照してください。無料ではありませんが、HTML ファイル内の単語を数えます。サブフォルダーも同様です。

于 2012-10-10T05:55:12.633 に答える