からの SEC 会社の提出書類を解析しようとしましたsec.gov
。fb 10-Q index.htmから始めて、完全な提出テキスト ファイリングのような完全なテキスト提出ファイリングを見てみましょう。次のような構造になっています。
<SEC-DOCUMENT>
<SEC-HEADER>
<ACCEPTANCE-DATETIME>"some content" This tag is not closed.
"some lines resembling yaml markup"
These are indented lines with a
"key": "value" structure.
</SEC-HEADER>
<DOCUMENT>
.
.
some content
.
.
</DOCUMENT>
"several DOCUMENT tags" ...
</SEC-DOCUMENT>
<SEC-HEADER>
タグの構造を理解しようとしたところ、 Public Dissemination Service (PDS) Technical Specification (pdf)でいくつかの情報が見つかり、ヘッダーの内容は SGML である必要があると結論付けました。
それにもかかわらず、山括弧がなく、キーと値のペアが.key: value
の代わりにコロンで区切られているため、フォーマットについてはわかりません<key>value</key>
。PDFリンクでは、コロンについて何も見つかりませんでした。
質問: <SEC-HEADER>
タグは有効な SGML ですか? もしそうなら、それを解析する方法は?
どんな助けでも嬉しいです。