HTML の本文が与えられた場合、HTML タグ (IE は単なるプレーン テキスト) を除いて、HTML のチャンクから表示される上位 10 個のキーワードを自動的に抽出する、誰かが書いた関数はありますか?
「and」、「is」、「but」などの一般的な単語は無視して、最も頻繁に使用される珍しい単語をリストする必要があります。
入力例:
Mary had a <strong>snow</strong> lamb. <img src=lamb.jpg /> The <i>lamb</i> was snow white, it lay in the snow all white.
出力:
Snow (3)
White (2)
Lamb (2)
Jqueryは大丈夫です!