私はHTMLタグについて話しているのではなく、このサイトのブログ投稿、YouTubeビデオ、または質問を説明するために使用されるタグです。
1つのWebサイトだけをクロールしている場合は、xpathを使用してタグを抽出するか、単純な場合は正規表現を使用します。しかし、extract_tags()関数で任意のWebページをスローして、タグをリストできるようにしたいと思います。
idまたは'tag'のクラスを持つすべてのHTML要素を検索するなど、いくつかの単純なヒューリスティックを使用することを想像できます。ただし、これはかなり脆弱であり、膨大な数のWebページでは失敗する可能性があります。この問題に対してどのようなアプローチをお勧めしますか?
また、ZemantaとOpen Calaisはどちらもテキストのタグを推測する方法があることを知っていますが、それは実際の人間がすでに選択したタグを抽出することと実際には同じではありません。ただし、ドキュメント内のタグを推測するための他のサービス/APIについては、ぜひ聞いてみたいと思います。
編集:明確にするために、これのためにすでに機能している解決策は素晴らしいでしょう。しかし、これをすでに行っているオープンソースソフトウェアはないと思います。そのため、ほとんどの場合に有効なアプローチについて、人々から聞いてみたいと思います。完璧である必要はありません。
EDIT2:通常は機能する一般的な解決策を提案している人、およびWebサイト/エンジンごとにカスタムスクレーパーを作成する必要がある場合は、arc90可読性ツールを検討してください。このツールは、私が信じるある種のヒューリスティックアルゴリズムを使用して、Web上の任意の記事の記事テキストを驚くほど正確に抽出することができます。私はまだ彼らのアプローチを掘り下げていませんが、それはブックマークレットに収まり、あまり関与していないようです。記事の抽出はタグの抽出よりもおそらく簡単であることを理解していますが、それは可能なことの例として役立つはずです。