問題タブ [edgar]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - ループの R は数値です
3 つの企業 (ciknum 変数) と各企業が年次報告書を提出した年 (fileyear) を含む「テスト」データフレームがあります。
これらの 2 つの列は数値です。
ただし、1 つのサイトから年次報告書をダウンロードするには、ciknum-fileyear のペアごとにループする必要があります。このループでは、ダウンロードを成功させるために数値変数が必要ですが、取得できないようです。たとえば、次のループを作成すると (変数会社または年に対して、数値変数ではないことがわかります)。
新しいDF会社と年が数値であるかどうかを確認しましたが、証拠が混在しています。一方では、年を数値変数として読み取るようです。
しかし一方で、そうではないようです:
これらが数値変数かどうか教えてもらえますか? これで迷ってしまいました… 私のダウンロード関数「my_getFilings」はそれに依存しているようです。前もって感謝します。
python - PythonでBS4で抽出した壊れたhtmlテーブルを修復する
私は管理書類から html テーブルを解析しています。HTML が壊れていることが多く、テーブルの構成が不十分になるため、注意が必要です。pandas データフレームにロードするテーブルの例を次に示します。
テーブルを修復するために、次の python コードを作成しました。
そして、これは私が得るテーブルです:
ここでの主な問題は、ヘッダーの「Age」と「Position」が列とずれていたため消えてしまったことです。このスクリプトを使用して多くのテーブルを解析しているため、手動で修復することはできません。この時点でデータを修復するにはどうすればよいですか?
parsing - SEC 会社への提出書類:タグ有効な SGML? もしそうなら、それを解析する方法は?
からの SEC 会社の提出書類を解析しようとしましたsec.gov
。fb 10-Q index.htmから始めて、完全な提出テキスト ファイリングのような完全なテキスト提出ファイリングを見てみましょう。次のような構造になっています。
<SEC-HEADER>
タグの構造を理解しようとしたところ、 Public Dissemination Service (PDS) Technical Specification (pdf)でいくつかの情報が見つかり、ヘッダーの内容は SGML である必要があると結論付けました。
それにもかかわらず、山括弧がなく、キーと値のペアが.key: value
の代わりにコロンで区切られているため、フォーマットについてはわかりません<key>value</key>
。PDFリンクでは、コロンについて何も見つかりませんでした。
質問: <SEC-HEADER>
タグは有効な SGML ですか? もしそうなら、それを解析する方法は?
どんな助けでも嬉しいです。
python - EDGAR SC-13 フォームからの REGEX 抽出情報
最新のSEC EDGAR Schedule 13 フォームファイリングから情報を抽出しようとしています。
例としてのファイリングのリンク:
抽出しようとしている情報 (および情報を含むファイリングの一部)
1) 報告者の名前: Saba Capital Management, LP
2) 発行体名 : WESTERN ASSET HIGH INCOME FUND II INC
3) CUSIP番号: 95766J102 (なんとか取得)
4) 金額で表されるクラスの割合: 11.3% (なんとか取得)
5) この申告書の提出が必要なイベントの日付: 2019 年 12 月 24 日
.
ファイリングから 5 つの情報を抽出するにはどうすればよいですか? 前もって感謝します