python - ウェブページの単語数統計

Question

任意の Web サイト、理想的には Python ベースのソリューションで単語の基本統計 (合計数、密度、リンク内の数、hrefs) を抽出する方法を探しています。

BautifulSoup などを使用して特定の Web サイトを解析し、コンテンツの大部分がどこにあるかを判断するのは簡単ですが、処理の前に DOM ツリー内のコンテンツの場所を定義する必要があります。これは、たとえば、hrefs や任意のタグでは簡単ですが、残りのデータ (明確に定義されたマーカーで囲まれていない) がどこにあるかを判断する場合は、より複雑になります。

私の理解が正しければ、Google のようなロボット (GoogleBot?) が使用するロボットは、任意の Web サイトからデータを抽出して、キーワードの密度を判断することができます。私のシナリオも同様で、Web サイトの内容を定義する単語に関連する情報を取得します (つまり、js、リンク、フィラーを削除した後)。

私の質問は、特定のページから意味のある単語の統計を取得できるライブラリまたは Web API はありますか?

score 2 · Accepted Answer

API はありませんが、ツールとして使用できるライブラリはほとんどない可能性があります。

意味のある単語を数えて、時間までに記録する必要があります。

次のようなものから開始することもできます。

 string Link= "http://www.website.com/news/Default.asp";
        string itemToSearch= "Word";


        int count = new Regex(itemToSearch).Matches(Link).Count;
        MessageBox.Show(count.ToString());

score 0 · Accepted Answer

Web 記事のより高度な処理を扱うライブラリは複数あります。この質問は、この質問の複製である必要があります。

python - ウェブページの単語数統計

2 に答える 2

Related

Reference