Edgar データベース (http://www.sec.gov/edgar/searchedgar/companysearch.html) から 8-K フォームの損益計算書テーブルからデータを抽出しようとしています。ここではいくつかの例を示します。
スクレイピングしたいテーブルは、'STATEMENTS OF OPERATIONS' または 'Statements of Income' などと呼ばれます。すべてのデータ (純売上高、営業利益など) を抽出し、日付と時間間隔 (3 か月、6 か月など) に従って辞書に入れるようにしています。問題は、テーブル構造が非常に多様であることです。そのようなデータを構造化する方法はたくさんあります。Beautiful Soup を使用してテーブルを解析するスクリプトを作成しましたが、大きく複雑になっています。多くのコーディングをせずに(すべての複雑さで)すぐに取得する方法があるのだろうか?Excel と Google Docs を使用してデータを自動的に取得しようとしましたが、この場合はパフォーマンスが低下します。助言がありますか?手伝ってくれてありがとう