python - ローカルに保存されたWebサイトの単語頻度カウンター

Question

中規模のWebサイトがローカルに保存されています（httrackを使用してサーバーからリッピングされています）。この特定のWebサイトのディレクトリ構造には、いくつかのフォルダ/サブフォルダと多数のhtmlファイルがあります。すべてのhtmlファイルにわたって単一の単語頻度カウンターテーブルを生成できるツール（実際には、スクリプト、c ++ / cコードなど）があるかどうかを知りたいです。ここでの秘訣は、実際の内容語のカウントにのみ関心があることです（つまり、HTMLコードではありませんが、その場合は後で簡単に削除できます）。どんな提案でも大歓迎です！

score 3 · Accepted Answer

HTMLコードを取り除いたら、使用しますcollections.Counter

>>> sentence = "Hello world. How are you? Hello"
>>> counts = collections.Counter(sentence.split()) # note that this still counts punctuation. Thus, "Hello," and "Hello" are two different words

HTML を削除する方法がない場合は、lxmlを調べてください。

お役に立てれば

score 2 · Accepted Answer

複数のファイルをスキャンして HTML タグを取り除く、 http: //www.hermetic.ch/wfca/wfca.htm の Hermetic Word Frequency Counter の高度なバージョンを参照してください。無料ではありませんが、HTML ファイル内の単語を数えます。サブフォルダーも同様です。

python - ローカルに保存されたWebサイトの単語頻度カウンター

2 に答える 2

Related

Reference