以前の経験に基づいてデータを抽出したい Web サイトがいくつかありますが、これは思ったほど簡単ではありません。なんで?単純に、解析する必要がある HTML ページが適切にフォーマットされていないためです (終了タグがないなど)。
使用できる技術、言語、またはツールに関して制約がないことを考慮して、HTML ページからデータを簡単に解析および抽出するための提案は何ですか? 私は HTML Agility Pack や BeautifulSoup を試しましたが、これらのツールでさえ完璧ではありません (HTML Agility Pack にはバグがあり、BeautifulSoup 解析エンジンは私が渡したページでは機能しません)。