0

SEC データセットから財務情報、特に XBRL タグを取得しようとしています: https://www.sec.gov/dera/data/financial-statement-data-sets.html、約 328 個のタグ、89 個の非タグを見つけることができました-繰り返されるもの。sub_num ファイル内のすべてのタグを検索して、sub を num とマージします

company = 1166126
sub_s_f = sub[(sub.cik == company)]`
jcp_num = num[(num.adsh == '0001166126-15-000055')]
jcp_num_tag_list = jcp_num.tag.tolist() 
jcp_num_tag_set = set(jcp_num_tag_list_new)

しかし、JCPENEY の XBRL 提出ファイルftp://ftp.sec.gov/edgar/data/1166126/0001166126-15-000055.txtですべてのタグを見つけようとしたとき。約 858 個のタグ、180 個の繰り返しのないタグを見つけることができました。

all_tags = soup.find_all(re.compile("\w"), attrs={"unitref":re.compile("\w")})

今、私は混乱しており、SEC がタグをデータセットにグループ化する前にタグを削除するかどうかを誰かが知っているかどうか疑問に思っています.

ご意見やフィードバックをいただければ幸いです。

4

1 に答える 1