html - HTML 記事コンテンツの抽出 - Alchemy API の代替

Question

ほぼすべての HTML Web ページから記事のメインコンテンツを取得するアプリケーションをコーディングする最良の方法を見つけるために、私は多くの調査を行ってきました。libxml2 を使用して XML を解析する C プログラムを持っていますが、Alchemy API に出くわしました。

ただし、オンライン API しかないため、外部呼び出しに依存せずにアプリケーションを社内に維持したいと考えていました。

誰にもヒントがありますか？私は、Alchemy API ができること (有料/無料) を行うオフラインの代替手段を望んでいました。

別の方法として、HTML を解析し、NLP (自然言語処理) 技術やその他の方法を使用して記事のメインコンテンツを取得することもできます。使用される Web サイトの種類には、ニュースセクションやブログを含む Web サイトが含まれます。

score 0 · Accepted Answer

AlchemyAPI はオンプレミスソリューションも提供するため、オンラインでアクセスする必要はありません。通常、オンプレミスソリューションを使用しているお客様は、特別なセキュリティまたは遅延の要件がある場合にそれを使用しています。オンプレミスソリューションの詳細については、http: //www.alchemyapi.com/products/on-premise/を参照してください。

html - HTML 記事コンテンツの抽出 - Alchemy API の代替

2 に答える 2

Related

Reference