クローラーを使用してWebコンテンツをマイニングして分析を行っています。多くの場合、Webページには、実際のコンテンツからユーザーの注意をそらす記事の本文の周りに雑然としたもの(広告、不要な画像、無関係なリンクなど)が含まれています。
ウェブページのニュース記事/ブログ投稿/フォーラムコメント/記事の実際の位置を定義する基準がないという事実を考えると、私が理解しているように、賢明なコンテンツを抽出することは難しい問題です。
私はこのようないくつかのオープンソースソリューションを見つけることができました:https ://metacpan.org/pod/HTML :: ContentExtractor
しかし、誰かがこれに対処し、妥当な成功率を得ているかどうか私は興味があります。それはかなり一般的な問題のようであり、多くの専門家がそこにいると信じたいと思います。私はJAVAベースのソリューションを好みますが、それは難しいルールではありません。いくつか入力してください。深く感謝します。