私は大量のhtmlドキュメントを扱っています。私の仕事の1つは、ドキュメントからすべてのテキストを抽出することです。私はかなり遠くまで行きましたが、本質的に数値ではない情報のコンテナ/フォーマット構造としてテーブルを使用しているため、今は困惑しています
私の目標は、数値フィールドのテーブルである場合、「テーブル」を抽出しないことを無視することです。
私はテーブルを取ることによってブルートルールベースのアプローチを実装する準備をしています。td.text_content()の一部が数字として分類できる場合は、テーブルが数値のテーブルであると判断します。
他の誰かがより良いアプローチを提案できるかどうか疑問に思っています