2 つの HTML ソースが与えられた場合、最初にこのようなものを使用してメイン コンテンツを抽出したいと思います。他のより良いライブラリはありますか- 私は特に Python/Javascript のものを探していますか?
2 つの抽出されたコンテンツを取得したら、それらがどの程度類似しているかを示す 0 から 1 の間のスコアを返したいと考えています。 Amazon.com と Walmart.com の同じ製品も高いスコアになります。これどうやってするの?すでにこれを行う既存のライブラリはありますか? 使用できる優れたライブラリは何ですか? 基本的に、自動要約、キーワード抽出、固有表現認識、感情分析の組み合わせを探しています。