最近、Bigqueryが SEC ファイリングのデータセットをホストしていることを知り、うれしく思いました。ただし、データセット内のファイリングの実際のテキストを見つけることができません! これは非常に明白に思えますが、何かが欠けているに違いありません。
例として、SEC Web サイト自体にある2018 年の Microsoft 10-K ファイリングには、項目 7 に「財務状況と結果に関する経営陣の議論と分析」という語句が含まれる 10-K テキストが含まれていることがわかります。このフレーズをデータセットで検索しました。
まず、次のクエリは、このファイリングからすべてのテキストを取得する必要があります。
SELECT *
FROM `bigquery-public-data.sec_quarterly_financials.txt`
WHERE submission_number="0001564590-18-019062"
上記のフレーズを検索すると、このクエリの結果は何も見つかりません。
別の StackOverflow の回答に基づく 2 回目の試行で、これが得られました。別のテーブルに格納されている場合に備えて、そのフレーズのデータセット全体を検索しようとしています。
SELECT *
FROM `bigquery-public-data.sec_quarterly_financials.*` t
WHERE REGEXP_CONTAINS(LOWER(TO_JSON_STRING(t)), r'/^discussion and analysis of financial condition$/')
検索結果はありません!
同じ SEC ファイリングを明確に見つけることができますが、その中のコンテンツが欠落しているようです。他のフレーズやセクションも検索しましたが、テキストがないようです。それでも、すべての Google ドキュメントに基づいて、そうあるべきだと思います。私は何が欠けていますか?
あるいは、SEC 10-K ファイリングなどのセクションを解析するための別の情報源を知っている人はいますか? それも役に立ち、この質問にも答えることができます。