python - lxmlでテーブルを分類します

Question

私は大量のhtmlドキュメントを扱っています。私の仕事の1つは、ドキュメントからすべてのテキストを抽出することです。私はかなり遠くまで行きましたが、本質的に数値ではない情報のコンテナ/フォーマット構造としてテーブルを使用しているため、今は困惑しています

私の目標は、数値フィールドのテーブルである場合、「テーブル」を抽出しないことを無視することです。

私はテーブルを取ることによってブルートルールベースのアプローチを実装する準備をしています。td.text_content（）の一部が数字として分類できる場合は、テーブルが数値のテーブルであると判断します。

他の誰かがより良いアプローチを提案できるかどうか疑問に思っています

score 0 · Accepted Answer

IBM の Watsonによって実装されているような、コンテキストに応じたデータ解析をお勧めしますが、それ以外の方法ではテーブルを分類することは不可能だと思います。数値表と非数値表の HTML の例を投稿していただけますか? それらが投稿されたら、回答を更新します。

1 に答える 1