html-parsing - Webページから意味のある完全なコンテンツを抽出する

Question

クローラーを使用してWebコンテンツをマイニングして分析を行っています。多くの場合、Webページには、実際のコンテンツからユーザーの注意をそらす記事の本文の周りに雑然としたもの（広告、不要な画像、無関係なリンクなど）が含まれています。

ウェブページのニュース記事/ブログ投稿/フォーラムコメント/記事の実際の位置を定義する基準がないという事実を考えると、私が理解しているように、賢明なコンテンツを抽出することは難しい問題です。

私はこのようないくつかのオープンソースソリューションを見つけることができました：https ：//metacpan.org/pod/HTML :: ContentExtractor

しかし、誰かがこれに対処し、妥当な成功率を得ているかどうか私は興味があります。それはかなり一般的な問題のようであり、多くの専門家がそこにいると信じたいと思います。私はJAVAベースのソリューションを好みますが、それは難しいルールではありません。いくつか入力してください。深く感謝します。

score 1 · Accepted Answer

理想的には、生のコンテンツを取得するためにRSSフィードを探すでしょう。

これは、HTMLの全体的な構造と意味の標準ではありません。作成者は、ページでさまざまな要素を定義します。検索エンジンはこの分野に多くの投資をしており、コンテンツにインデックスを付け、検索ランキングのためにコンテンツから何らかの意味と構造を引き出すための独自の秘密のソースを持っています。

長い間予告されていた「セマンティックWeb」ができるまでは、任意のHTMLページの構造と意味について知識に基づいた推測しかできません。

しかし、理論的には：

見出しタグを探します。これらはあなたにどこから読み始めるかについての手がかりを与え、そしてうまくいけばコンテンツの重要性の順序の概要を与えるはずです。

共通の要素IDとクラスを探します。<div id="content">適切に構造化されたサイトには、やのようなものが含まれている可能性があります<div class="article">。これは、最近のセマンティックと同じです。また、WordPress（「post」）やDrupal（「node」）などの一般的なCMSプラットフォームで使用される標準の要素名についても理解してください。多くの場合、これらはコンテンツをマークアップするために使用されます。

最後になりましたが、 microformatsを探してください。

score 0 · Accepted Answer

現在、このタスクを主な目標とするプロジェクトが多数あります。

NPM パッケージWCE (Javascript) は、内部で他の多くのコンテンツ抽出モジュールを使用しているため、興味深いものです。

申し訳ありませんが、この質問に先に回答するつもりでしたが、忙しくしていました。

html-parsing - Webページから意味のある完全なコンテンツを抽出する

2 に答える 2

Related

Reference