2

任意の Web サイト、理想的には Python ベースのソリューションで単語の基本統計 (合計数、密度、リンク内の数、hrefs) を抽出する方法を探しています。

BautifulSoup などを使用して特定の Web サイトを解析し、コンテンツの大部分がどこにあるかを判断するのは簡単ですが、処理の前に DOM ツリー内のコンテンツの場所を定義する必要があります。これは、たとえば、hrefs や任意のタグでは簡単ですが、残りのデータ (明確に定義されたマーカーで囲まれていない) がどこにあるかを判断する場合は、より複雑になります。

私の理解が正しければ、Google のようなロボット (GoogleBot?) が使用するロボットは、任意の Web サイトからデータを抽出して、キーワードの密度を判断することができます。私のシナリオも同様で、Web サイトの内容を定義する単語に関連する情報を取得します (つまり、js、リンク、フィラーを削除した後)。

私の質問は、特定のページから意味のある単語の統計を取得できるライブラリまたは Web API はありますか?

4

2 に答える 2

2

API はありませんが、ツールとして使用できるライブラリはほとんどない可能性があります。

意味のある単語を数えて、時間までに記​​録する必要があります。

次のようなものから開始することもできます。

 string Link= "http://www.website.com/news/Default.asp";
        string itemToSearch= "Word";


        int count = new Regex(itemToSearch).Matches(Link).Count;
        MessageBox.Show(count.ToString());
于 2013-03-30T13:36:39.470 に答える
0

Web 記事のより高度な処理を扱うライブラリは複数あります。この質問は、この質問の複製である必要があります

于 2015-07-24T09:20:20.647 に答える