3

ここ数日、あるプロジェクトに取り組んでいますが、このプロジェクトには、実際にはどうすればよいかわからないタスクがあります。このプロジェクトには、Web ページを分析して、ページを特徴付けるタグを見つけることが含まれています。

やあ相棒、タグとはどういう意味ですか? タグとは、Web ページの内容を要約したキーワードのことです。たとえば、ここで SO に自分のタグを書いて、人々が自分の質問をよりよく見つけられるようにします。私が話しているのは、Web ページを分析してページ内のテキストからタグを見つけるアルゴリズムを構築することです。

ページからテキストを取得することから始めました->完了

一般的に、ウェブページの内容を結論付けるキーワードを見つける方法を探しています

しかし、私は次に何をすべきか本当に知りません。誰か提案がありますか?

4

4 に答える 4

4

非常に基本的なアプローチとして、TF-IDFアルゴリズムを使用して、ページ内で最も重要な単語を見つけることができます。

ウィキペディアからの簡単な見落とし:

tf–idf 重み (用語頻度 – 逆ドキュメント頻度) は、情報検索やテキスト マイニングでよく使用される重みです。この重みは、コレクションまたはコーパス内のドキュメントにとって単語がどの程度重要であるかを評価するために使用される統計的尺度です。重要度は、単語がドキュメントに出現する回数に比例して増加しますが、コーパスでの単語の頻度によって相殺されます。tf–idf 重み付けスキームのバリエーションは、検索エンジンが、ユーザー クエリに基づいてドキュメントの関連性をスコアリングおよびランク付けする際の中心的なツールとしてよく使用されます。tf–idf は、テキストの要約や分類など、さまざまな主題分野でのストップワード フィルタリングにうまく使用できます。

ページで最も重要な単語を見つけたら、それらをタグとして使用できます。


タグを改善して関連性を高めたい場合。

進め方はたくさんありますが、以下のように進めることができます。

  • 主なタグを知っているテキストの束を抽出します。
  • このすべてのテキストに対して TF-IDF アルゴリズムを実行し、スコアが最も高いものを含むベクトルを作成します。
  • これらすべてのベクトルの主な方向を見つけようとします。(たとえば、ACP、または任意の機械学習ツールを実行する)
  • そして、このタグを使用して、主要な方向からの単語のセットを表します。(ACP の最大ベクトル)

それが理解できて役立つことを願っています

于 2011-10-20T16:28:56.903 に答える
1

通常、特定の html で囲まれた特定の単語を探します。たとえば、タイトルは通常、 などの H タグにあり<h1>ます。

ページのすべての H1 タグを解析すると、そのタグに続くコンテンツが関連していることがわかります。例はまさにこのページです。質問のタイトルを H1 タグで囲んでいます。これにより、そのページが「アルゴリズム」、「分析」、「Web ページ」などに関するものであるというヒントが Google に与えられます。

難しい部分は、コンテキストを決定することです。

ここでの例では、「ページ」という用語は非常に一般的であり、あらゆるものに関連する可能性があります。ただし、「Web ページ」はもう少し具体的です。これは、多くのドキュメントを分析して共通点を見つけた後、用語の頻度に基づいて時間をかけて構築された内部辞書を使用して行うことができます。頻度は、特定のページの上位 X 個の「タグ」を決定する際の加重値を提供する必要があります。

于 2011-10-20T16:31:01.433 に答える
1

これは、情報検索とデータ マイニングに関する質問です。ラオの講義のいくつかを復習すると役立つかもしれません。

Web ページをスパイダーしているときは、基本的にインデックスを構築しようとしています。これを行うには、言語内の各単語 (複数形やその他の変更を考慮して語幹が付けられることが多い) がキーとして格納され、ドキュメント内でのそれらの単語の出現回数が値として格納される、グローバルな用語-頻度辞書を作成します。

そこから、PageRankAuthorities などのアルゴリズムやハブを使用してデータ分析を行うことができます。

于 2011-10-20T16:31:16.130 に答える
1

多くのヒューリスティックを実装できます。

  • すべて大文字の頭字語と単語
  • 頻度の低い単語。つまり、すべてまたはほとんどのドキュメントに出現する単語を破棄し、このドキュメントにのみ比較的頻繁に出現する単語を優先します。
  • このドキュメントで常に同じ順序で表示され、場合によっては他のドキュメントでも表示される一連の単語
于 2011-10-20T16:34:47.570 に答える