任意の Web サイト、理想的には Python ベースのソリューションで単語の基本統計 (合計数、密度、リンク内の数、hrefs) を抽出する方法を探しています。
BautifulSoup などを使用して特定の Web サイトを解析し、コンテンツの大部分がどこにあるかを判断するのは簡単ですが、処理の前に DOM ツリー内のコンテンツの場所を定義する必要があります。これは、たとえば、hrefs や任意のタグでは簡単ですが、残りのデータ (明確に定義されたマーカーで囲まれていない) がどこにあるかを判断する場合は、より複雑になります。
私の理解が正しければ、Google のようなロボット (GoogleBot?) が使用するロボットは、任意の Web サイトからデータを抽出して、キーワードの密度を判断することができます。私のシナリオも同様で、Web サイトの内容を定義する単語に関連する情報を取得します (つまり、js、リンク、フィラーを削除した後)。
私の質問は、特定のページから意味のある単語の統計を取得できるライブラリまたは Web API はありますか?