ほぼすべての HTML Web ページから記事のメイン コンテンツを取得するアプリケーションをコーディングする最良の方法を見つけるために、私は多くの調査を行ってきました。libxml2 を使用して XML を解析する C プログラムを持っていますが、Alchemy API に出くわしました。
ただし、オンライン API しかないため、外部呼び出しに依存せずにアプリケーションを社内に維持したいと考えていました。
誰にもヒントがありますか?私は、Alchemy API ができること (有料/無料) を行うオフラインの代替手段を望んでいました。
別の方法として、HTML を解析し、NLP (自然言語処理) 技術やその他の方法を使用して記事のメイン コンテンツを取得することもできます。使用される Web サイトの種類には、ニュース セクションやブログを含む Web サイトが含まれます。